Přeskočit na hlavní obsah

Jak tvořit hudbu pomocí umělé inteligence a strojového učení



Naučte se vytvářet hudbu s pomocí umělé inteligence! Opakující se neuronové sítě pro tvorbu hudby!

Datový soubor MAESTRO a Wave2Midi2Wave
Poté, co jsem se podíval na tyto zdroje, našel jsem výzkumný dokument, který zavádí nový dataset s názvem MAESTRO (což je zkratka MIDI a Audio Edited for Synchronous TRacks and Organisation). Navrhuje také novou architekturu Wave2Midi2Wave, která v zásadě kombinuje tři nejmodernější algoritmy a společně je trénuje v datovém souboru MAESTRO. 

MIDI je v podstatě technický standard, který zahrnuje spoustu protokolů pro počítače s rozhraním s různými druhy zvukových zařízení. To je užitečné, protože přenášené informace obsahují informace o tónu, výšce, rychlosti a tempu.

Hlavním důvodem, proč je tento nový datový soubor tak důležitý, je to, že obsahuje mnohem více dat než všechny předchozí předchozí datové sady. Abychom to uvedli do perspektivy, datový soubor MAESTRO obsahuje 172 hodin zvukových a MIDI přepisů. Datový soubor MAPS obsahuje pouze 17,9 hodin a datový soubor MusicNet pouze 15,3 hodin.

Jak jsem již zmínil dříve, Wave2Midi2Wave je v podstatě kombinací tří různých nejmodernějších modelů a každý vykonává jiný úkol. Nejprve se Wave2Midi používá k přepisu zvuku do symbolické reprezentace (MIDI). Poté část sítě Midi vytvoří nový obsah. To vše je syntetizováno programem Midi2Wave tak, aby výsledkem byla realisticky znějící hudba.

První síť ve Wave2Midi2Wave používá nejmodernější architekturu nazvanou Onsets and Frames, která automaticky převádí vaše nahrávky na noty reprezentované v MIDI. Takže pokud jste improvizovali, mohli byste přesně vědět, co jste hráli!

Pomocí CNN a LSTM byli vědci schopni „předpovídat události nástupu výšky tónu a poté použít tyto předpovědi k úpravě předpovědí výšky tónu po rámečku“. To v podstatě znamená, že jedna neuronová síť v modelu se používá k předpovědi, kdy se hraje nota (tj. nástup). A další neuronová síť předpovídá, jak dlouho se nota hraje (každý snímek, který je nota aktivní).

Midi: Music Transformer
Pro druhou síť ve Wave2Midi2Wave se používá speciální typ transformátoru ke generování zcela nových sekvencí hudby s dlouhodobou koherencí. Výstup sítě dává mnohem strukturálnější smysl ve srovnání s jinými neurálními sítěmi.

V běžném Transformátoru je pozornost věnována modelování vztahů mezi slovy, protože ve větách není význam slova založen pouze na slovech, která mu předcházela, ale na kontextu celé věty.
Transformátory agregují informace ze všech ostatních částí sítě a generují reprezentaci pro každé slovo na základě celého kontextu. Tento proces se opakuje, aby každé slovo generovalo nové reprezentace.

Jde zde o to, že pomocí transformátorů můžeme přiřadit informace různým částem dat na základě kontextu celé sítě. Vraťme se tedy k tématu hudební generace.
Jeden problém s původním Transformerem spočívá v tom, že spoléhá na absolutní pozice pro vlastní pozornost. Když to aplikuje na hudbu, Transformers zápasí s vzdálenostmi, řádem a opakováním. Při použití relativní pozornosti se model hudební transformace může zaměřit na relační prvky a generovat sekvence nad rámec toho, co bylo uvedeno v příkladech školení.

Midi2Wave: WaveNet
Poslední část sítě bere model WaveNet a trénuje jej v datové sadě pro generování hudby, která doslova zní jako nahrávka. WaveNet je modelová architektura, která je založena na systému PixelCNN a specializuje se na syntézu zvuku.
Architektura využívá konvoluční vrstvy. Protože závity nepoužívají opakující se spojení jako v RNN, což znamená, že je obvykle mnohem snazší trénovat než RNN. Jedním problémem je však to, že ke zvýšení vnímavého pole (množství dat, které může model pokrýt) je zapotřebí tuny vrstev nebo super velké filtry, což zvyšuje výpočetní náklady.

K obejití se používají dilatační závity. To v podstatě znamená, že filtry mohou být použity na větší plochu, pokud jsou určité vstupní hodnoty přeskočeny. Dosáhnete téměř stejného efektu jako větší filtr, pokud jste jej rozšířili o nuly, ale je mnohem účinnější.

Trénink WaveNet, nejmodernější model pro syntézu řeči, na datovém souboru MAESTRO přináší některé docela neuvěřitelné výsledky se kterými vás zde postupně seznámím a uvedu na konkrétních příkladech.

Komentáře

Populární příspěvky z tohoto blogu

Python kód jednoduchý kalkulátor

Tento jednoduchý Python program žádá uživatele, aby vybral požadovanou operaci. Možnosti výběru 1, 2, 3 a 4 jsou platné. Jsou vybrána dvě čísla if...elif...else a větvení se používá k provedení určité sekce programu. Uživatelem definované funkce add(), subtract(), multiply() a divide() provedou příslušné operace.
# Program make a simple calculator# This function adds two numbers def add(x, y):return x + y # This function subtracts two numbers def subtract(x, y):return x - y # This function multiplies two numbersdef multiply(x, y):return x * y # This function divides two numbersdef divide(x, y):return x / y print("Select operation.")print("1.Add")print("2.Subtract")print("3.Multiply")print("4.Divide"

Rokytnice nad Jizerou, Lysá hora

Rokytnice nad Jizerou (německy Rochlitz an der Iser) je město a horské letovisko v západních Krkonoších. Nachází se v Libereckém kraji, v okrese Semily, v protáhlém údolí Huťského potoka mezi masivy hor Stráž (782 m), Čertova hora (1022 m) a Lysá hora (1344 m) a podél levého (východní) břehu řeky Jizery. Žije zde přibližně 2 600 obyvatel.

Traveler prémiová HTML šablona zdarma ke stažení

Prémiová HTML šablona Traveler je jedinečná šablona pro super snadné použití nejen pro cestovní kanceláře a agentury, která umožňuje i začínajícím uživatelům vytvořit jedinečné originální webové stránky k okamžitému nasazení.

Webové motivy a stránky šablon se dokonale zobrazují na každém zařízení, včetně stolních počítačů, noteboocích, tabletech a všech typech smartphonů. Jsou plně přátelské pro vyhledávací a indexovací služby, které vám zajistí první pozice v předních místech vyhledaných výsledcích vyhledávání.
Prvotní myšlenkou v tvorbě originálního designu je vyjádřit určitou jedinečnost, nevšednost každé aplikace, která je pro zákazníka zajímavá a neotřelá. Důležitým faktorem je, jaké jsou na počátku zadání a představy ze strany zákazníka, a jak velký je tedy prostor pro navržení zcela originálního designu aplikace nebo webové stránky.

Mým záměrem je tvorba originálního software tak, abych se za své dílo nemusel před zákazníky stydět, a aby zákazník nemusel vynaložit více prostře…