În contextul comparativ, este la fel ca un curcan care ațipește când se vorbește despre Crăciun, mărturisesc că nu mă mai gândesc când se vorbește despre inteligența artificială. Sau, mai degrabă, obișnuiam să o fac, până acum câteva săptămâni. Până atunci, IA părea vitală și premonitorie, dar cumva și îndepărtată și de neînțeles. Dar acum atenția mea este captată. Diferența constă în sunetul, care nu mai este unic, al vocii umane.
Clonele vocale Deepfake sunt aici. Tehnologia din spatele lor nu este nouă, dar progresele rapide în ceea ce privește acuratețea și disponibilitatea au făcut ca copiile vocale generate de AI să devină virale în acest an. Software-ul Vall-E de la Microsoft pretinde că este capabil să imite o persoană pe baza a doar trei secunde de audio. Deși nu a fost încă lansat pentru public, altele cu capacități la fel de puternice sunt ușor de obținut.
Un punct culminant a avut loc în ianuarie, când start-up-ul tehnologic ElevenLabs a lansat un puternic generator vocal online. Vocile falsificate ale celebrităților au inundat imediat rețelele sociale. Swifties de pe TikTok au inventat mesaje inspiraționale imaginare de la Taylor Swift („Hei, sunt Taylor, dacă ai o zi proastă, află că ești iubit”). La celălalt capăt al spectrului, trolii de pe 4chan au creat clipuri audio false cu celebrități care spun lucruri pline de ură.
Alte generatoare de voce dublează atât cântecul, cât și vorbirea. Printre nenumăratele machete care circulă pe rețelele de socializare se numără o Rihanna sintetică, dar cu un sunet convingător, care acoperă piesa „Cuff It” a lui Beyoncé. Dușmanii Biggie Smalls și Tupac Shakur, resuscitați digital, fac pace într-o versiune rap a piesei „N****s in Paris” a lui Kanye West și Jay-Z. David Guetta a realizat o voce de AI Eminem care a rapat despre un „future rave sound” pentru un set de DJ live. Referindu-se la ceea ce a numit creația sa „Emin-AI-em”, el a explicat ulterior că „evident că nu voi lansa acest lucru în scop comercial”.
În aprilie, o piesă intitulată „Heart on My Sleeve” a devenit primul hit al clonei vocale, înregistrând milioane de stream-uri și vizualizări. Se presupune că a fost făcută de o figură misterioasă numită Ghostwriter, este un duet cu versiuni generate de AI ale superstarurilor canadiene Drake și The Weeknd.
Versurile seamănă cu o parodie proastă a muncii reale a celor doi. „Am inima pe mânecă cu un cuțit în spate, ce-i cu asta?”, rapează falsul Drake, evident la fel de mistificat ca noi toți. Dar verosimilitatea vocii este impresionantă. Sunt atât de realiste încât au existat speculații nefondate că totul este o cascadorie publicitară cu găuri de vierme, în care cele două trupe se presupune că se prefac că sunt avatarurile lor create de inteligența artificială.
„Heart on My Sleeve” a fost eliminat de pe platformele de streaming după o plângere din partea casei de discuri a artiștilor, Universal Music Group, deși este destul de simplu de găsit online. O ceață juridică tulbure acoperă clonarea vocală. Sunetul vocii unui cântăreț, timbrul său, nu beneficiază de aceeași protecție juridică ca și cuvintele și melodiile pe care le cântă. Poate că vocea lor este un bun de preț, dar frecvența sa sonoră nu poate fi protejată prin drepturi de autor. În funcție de utilizarea sa, se pare că am libertatea de a crea sau de a încerca să creez un model de inteligență artificială a tonurilor inimitabile ale cântărețului meu preferat.
Spre deosebire de celebrii rapperi și vedete pop care sunt țintele tipice pentru clonare, alegerea mea este un act de epocă: Tom Waits, un pilon gravuros al vieții mele muzicale încă din perioada studenției.
Acum, la 73 de ani, cantautorul californian și-a lansat primul album în urmă cu 50 de ani. Cântecele sale au fost caracterizate succint de soția și colaboratoarea sa Kathleen Brennan ca fiind fie „securiști sumbri” care zăngănesc, răcnesc și se luptă, fie „mari plângăcioși” care cântă serenade și plâng. Luați notă, AI Drake și AI The Weeknd, aceasta este o chestie cu inima pe mânecă.
În afară de faptul că sunt un fan, un motiv pentru a-l alege este stilul său distinctiv de a cânta, un răcnet de cataractă care rivalizează cu Cascada Niagara. Un altul este absența frustrantă a oricărei muzici noi de la el: cel mai recent album al său a ieșit în 2011. Prin urmare, mi-am stabilit provocarea de a folosi instrumente generative online pentru a crea un surogat al lui Tom Waits, un cântec nou care să încerce să pună AI în Tom Waits.
Ca în cazul oricărei sarcini necunoscute în zilele noastre, primul port de apel este un tutorial pe YouTube. Acolo găsesc un expert în tehnologie cu pălărie de baseball din SUA, Roberto Nickson, care demonstrează puterea generatoarelor de voce cu o stranie imitație a lui Kanye West, care a devenit virală la sfârșitul lunii martie. El a ales vocea rapperului pentru că este fan, dar și pentru că a fost cel mai bun model de voce pe care l-a găsit la momentul respectiv.
Pe un ritm în stilul lui Ye, pe care l-a găsit pe YouTube, versurile lui Nickson cu vocea lui Ye îl fac pe rapper să pară că-și cere scuze pentru izbucnirile sale șocante de antisemitism de anul trecut. „Am atacat o întreagă religie doar din cauza ignoranței mele”, spune Nickson în vocea lui Kanye. (În realitate, rapperul a oferit anul trecut o scuză în care a spus că nu-și regretă comentariile).
„Când am făcut acel videoclip, aceste modele de învățare automată erau noi”, îmi spune Nickson într-un apel video, stând în spatele unui microfon în studioul său de filmare din Charlotte, Carolina de Nord. În vârstă de 37 de ani, este un antreprenor în domeniul tehnologiei și creator de conținut. El a dat peste modelul de voce Kanye în timp ce naviga pe un forum de remixuri muzicale inspirate de Ye, numit Yedits, pe site-ul de internet Reddit.
„A fost o noutate, nimeni nu o mai văzuse”, spune el despre vocea lui Ye generată de AI. „Cum ar fi, tutorialul avea aproximativ 20 de vizualizări pe YouTube. Și m-am uitat la el și am zis: „Oh, Doamne!”. Motivul pentru care am știut că va fi uriaș nu a fost doar faptul că era inedit și cool, ci și pentru că discuția despre drepturile de autor din jurul lui va schimba totul.”
Clonarea vocii ridică, de asemenea, întrebări etice. Nickson, care nu este afro-american, a fost criticat online pentru că a folosit o voce de negru american. „Am avut o mulțime de comentarii care au numit-o blackface digitală. Am încercat să le explic oamenilor, hei, uite, la momentul respectiv acesta era singurul model bun disponibil.”
În altă parte pe canalul său YouTube sunt ghiduri pentru a vă face propria voce de celebritate. Ghidat de tutorialele sale, mă înscriu ca membru al unui hub AI pe Discord, platforma social-media fondată de jucătorii de calculator. Acolo puteți găsi modele vocale și linkuri către instrumentele de programare pentru procesarea lor.
Aceste instrumente au nume absconse precum „so-vits-svc” și inițial par derutante, deși este posibil să le folosești fără experiență în programare. Modelele vocale sunt formulate din voci a cappella preluate din înregistrări, care sunt transformate în seturi de date. Este nevoie de câteva ore de procesare pentru a crea o voce muzicală convingătoare. Modelatorii se referă la acest lucru ca la „antrenament”, ca și cum clona vocală ar fi un animal de companie.
Printre Travis Scotts și Bad Bunnies de pe hub-ul Discord se află o voce Tom Waits. Este demonstrat de un clip al lui Waits generat de AI care urlă o versiune semi-plauzibilă a hitului country-rap al lui Lil Nas X „Old Town Road”. Dar nu pot face ca modelul să funcționeze. Așa că următorul meu port de apel este un site web care să o facă pentru mine.
Voicify.ai creează voci pentru utilizatori. Acesta a fost înființat de Aditya Bansal, un student la informatică la Universitatea Southampton. El a observat că melodiile de acoperire cu AI se înmulțesc și într-o săptămână și-a pus în funcțiune site-ul. Viteza este esențială în goana după aur.
Studentul la informatică Aditya Bansal …© Hannah Norton
… care a înființat Voicify.ai în căminele sale studențești de la universitatea din Southampton © Hannah Norton
„Deoarece tehnologia este destul de nouă, sunt mulți oameni care lucrează la ea și încearcă să scoată un produs, așa că a trebuit să o fac rapid”, spune tânărul de 20 de ani prin apel video. El și-a făcut o voce de inteligență artificială, în stilul rapperului american decedat Juice Wrld, „dar vocea mea de cântăreț nu este bună, așa că nu pot ajunge la note”. (După cum voi afla, este nevoie de un anumit grad de talent muzical în lumea cântecelor generate de AI).
Când vorbim, Bansal este la o săptămână distanță de examenele din anul al doilea, pentru care încă nu a început să revadă. Cu niveluri de plată variind de la 8,99 la 89,99 lire sterline, Voicify.ai se dovedește a fi o distracție profitabilă. „A pornit destul de mult din SUA/Marea Britanie”, spune el despre utilizatorii săi. „Acum am văzut că s-a extins la nivel mondial”. Casele de discuri l-au contactat, de asemenea, dorind să facă modele ale artiștilor lor pentru piesele demo, care sunt folosite ca schițe înainte de procesul complet de înregistrare.
Nu vrea să dea o cifră exactă a câștigurilor sale, dar râsul său poartă o notă de neîncredere atunci când îl întreb. „Este foarte mult”, spune el, cu un zâmbet care trece de la timid la vesel.
Pentru a-mi crea vocea, mă duc pe un alt site pentru a extrage fișiere de sunet a cappella cu Waits cântând piese de pe albumul său Rain Dogs, pe care le introduc apoi în Voicify.ai. Câteva ore mai târziu, AI-ul meu Waits este gata. Îl testez cu piesa „Dancing Queen” a trupei Abba, al cărei fișier MP3 l-am tras și l-am plasat pe site.
Melodia reapare cu vocea Abba înlocuită de vocea lui Waits generată de AI. Începe într-un mod destul de șovăielnic, ca și cum robotul Waits ar fi derutat de sarcină. Dar până când ajunge la „Friday night and the lights are low” (Vineri seara și luminile sunt slabe), acesta urlă cu toată dăruirea. Chiar sună ca și cum Tom Waits ar interpreta Abba. Urmează obstacolul mai dificil de a crea un cântec nou.
Un posibil obstacol este reprezentat de lege. În 1990, Waits a câștigat un proces de referință în SUA împotriva Frito-Lay, producătorul chipsurilor de porumb Doritos, pentru că a folosit un imitator cu voce aspră într-o reclamă. S-ar putea aplica același lucru și în cazul clonelor vocale ale IA? Recording Industry Association of America susține că antrenamentul vocal algoritmic încalcă drepturile de autor ale artiștilor, deoarece implică înregistrări ale acestora, cum ar fi utilizarea de către mine a melodiilor lui Rain Dogs. Dar acest lucru poate fi contracarat prin argumente de utilizare echitabilă care protejează parodiile și imitațiile.
„Dacă vom avea un proces în instanță, se va ajunge la întrebarea dacă încerci să faci bani din asta sau dacă este o parodie virală pe care o faci în scopuri legitime”, consideră Dr. Luke McDonagh de la London School of Economics, expert în drepturile de proprietate intelectuală și arte. „Dacă o faci pentru a face bani, atunci legea te va opri pentru că, în esență, profiți de imaginea de marcă, de vocea personalității altcuiva. Va fi prins de lege într-un fel sau altul, dar nu este neapărat o chestiune de drepturi de autor.”
Muziciana Holly Herndon, a cărei ultimă înregistrare este un duet cu geamănul ei digital, Holly+ © Boris Camaca
Din păcate – dar poate din fericire din punctul de vedere al taxelor legale – impresia mea de AI Waits nu va declanșa o actualizare definitivă a clonei vocale a lui Waits vs Frito-Lay. Motivul nu se află în desișurile dense ale jurisprudenței, ci mai degrabă în nereușita încercării mele de imitație asistată de AI.
Pentru a obține versuri, mă duc la ChatGPT, chatbotul AI lansat în noiembrie anul trecut de laboratorul de cercetare OpenAI. Acesta îmi răspunde la cererea mea pentru un cântec în stilul lui Tom Waits cu un număr de joc, dar cu facepalmă, numit „Gritty Troubadour’s Backstreet”.
„Clapele pianului sunt uzate și obosite,/Cum le bate cu o mână îmbătrânită,/Fumul se încolăcește în jurul paharului său de whisky,/Un profet al unui tărâm uitat”, spune un vers. Această pastișă grețoasă, produsă cu o viteză incredibilă din analiza materialului liric waitsian conținut pe internet, este conformă cu latura grand weepie a operei cântărețului.
Pentru melodie, mă adresez lui Boomy, un creator de muzică cu inteligență artificială. De la lansarea sa în California, în 2019, susține că a generat peste 15mn de melodii, ceea ce reprezintă, conform calculelor sale, 14% din muzica înregistrată în lume. La începutul acestei luni, s-a raportat că Spotify a eliminat zeci de mii de melodii create de Boomy din catalogul său, în urma acuzațiilor privind roboții care au invadat site-ul pentru a crește în mod artificial cifrele de streaming.
Adăugările mele la imensa grămadă de melodii ale lui Boomy nu sunt deosebite. Pentru a crea o piesă, alegeți un stil, cum ar fi „lo-fi” sau „global groove”, și apoi setați parametrii de bază, cum ar fi sunetul tobei și tempo-ul. Nu există o opțiune pentru a selecta stilul unui artist numit. După ce m-am jucat cu el pentru a face muzica cât mai jazzy cu putință, am ajuns la o chestie ciudată, bazată pe ritmuri, cu un bas răsucit.
Există un buton pentru adăugarea de voce. Spre mortificarea mea, mă trezesc strigând „Gritty Troubadour’s Backstreet” cu vocea mea cea mai aspră peste muzica ciudată Boomy la computerul meu. Apoi, mă întorc la Voicify.ai pentru a „waits-fica” melodia. Rezultatele sunt o monstruozitate. Vocea mea de Waits sună ca un englez răgușit care enunță o vorbă de doi lei. Experimentul meu cu generarea vocii AI a fost anulat de un defect uman: nu știu să cânt.
Ai nevoie de abilități muzicale pentru a crea un cântec AI. Clonele vocale au nevoie de o persoană reală care să cânte melodia sau să cânte cuvintele. Atunci când o trupă rock din Marea Britanie numită Breezer a lansat luna trecută un album imaginar al trupei Oasis sub numele „Aisis”, a folosit o clonă vocală pentru a-l copia pe Liam Gallagher, dar a scris și a interpretat singură melodiile. „Sună mega”, a scris adevăratul Gallagher pe Twitter după ce l-a ascultat.
Artiștii sunt divizați. Muziciana electronică Grimes, o tehnologistă convinsă, își creează propriul software de imitare a vocii pe care fanii îl pot folosi, cu condiția ca aceștia să împartă cu ea veniturile din drepturi de autor. În schimb, Sting a lansat recent un avertisment din vechea gardă cu privire la „bătălia” pentru apărarea „capitalului nostru uman împotriva IA”. După ce o dublură vocală l-a imitat în timp ce prelua o piesă a rapperiței Ice Spice, Drake a scris pe Instagram, cu o pișcătură masculină: „Aceasta este ultima picătură AI”.
„Oamenii au dreptate să fie îngrijorați”, afirmă Holly Herndon. Muzicianul electronic american stabilit la Berlin este o figură inovatoare în domeniul muzicii computerizate care a folosit un sistem de înregistrare AI personalizat pentru albumul său Proto din 2019. Cea mai recentă înregistrare a ei este un duet fermecător de melodioasă cu un geamăn digital, Holly+, în care ele reiau povestea de rivalitate romantică obsesivă a lui Dolly Parton, „Jolene”.
Vocea lui Holly+ a fost clonată din înregistrări ale lui Herndon cântând și vorbind. „Prima dată când l-am auzit pe soțul meu (artistul și muzicianul Mat Dryhurst) cântând prin vocea mea în timp real, ceea ce a fost întotdeauna scopul nostru, a fost foarte frapant și memorabil”, spune ea prin e-mail. Vocea clonată a fost pusă la dispoziția publicului, deși nu ca o utilizare liberă: un „protocol clar de atribuire”, după cum spune Herndon, reglementează utilizarea. „Cred că a fi permisiv cu vocea în circumstanțele mele are cel mai mult sens, deoarece nu există nicio modalitate de a pune această tehnologie înapoi în cutie”, explică ea.
Aproape fiecare etapă de dezvoltare tehnologică din istoria muzicii înregistrate a fost însoțită de previziuni sumbre de nenorocire. Apariția radioului în anii 1920 a provocat anxietate cu privire la subminarea muzicii live. Răspândirea mașinilor de tobe în anii 1980 a fost observată cu nervozitate de către toboșari, care se temeau să nu ajungă cu un sunet strident și terminal la fier vechi. În niciunul dintre cazuri nu s-a dovedit că aceste previziuni au fost corecte.
„Drumming-ul este încă înfloritor”, spune Herndon. „Unii artiști au devenit virtuozi cu mașini de tobe, sintetizatoare și sampleri, iar noi acordăm atenție oamenilor care pot face lucruri cu ele care sunt expresive sau impresionante în moduri greu de realizat pentru oricine. Același lucru va fi valabil și pentru instrumentele de inteligență artificială.”
Muzica pop este mediul care a risipit cele mai multe resurse de imaginație asupra sunetului vocii în ultimul secol. De la adoptarea microfoanelor electrice în studiourile de înregistrare în 1925, cântăreții au fost tratați ca punct central în înregistrări, precum vedetele de la Hollywood în prim-plan pe ecran. Vocile lor sunt concepute pentru a ne intra în cap. Cu toate acestea, cântăreții celebri sunt, de asemenea, departe, ascunși în spatele barierei lor de celebritate. Intimitatea este unită cu inaccesibilitatea.
Acesta este motivul pentru care vedetele pop au un număr uriaș de urmăritori în social media. Este, de asemenea, motivul pentru care fanii lor sunt în prezent înnebuniți de tehnologia de generare a vocii AI. Capacitatea de a-ți face idolul să cânte sau să vorbească duce iluzia de apropiere a pop-ului la următorul nivel logic. Dar posesorii celor mai faimoase voci din lume se pot consola. În ciuda întregii profunzimi a inteligenței artificiale, ingredientul care lipsește în orice act de imitație de succes rămâne talentul de modă veche – cel puțin deocamdată.
Sursa – www.ft.com