După ce lui Andrew White i s-a acordat acces la GPT-4, noul sistem de inteligență artificială care alimentează popularul chatbot ChatGPT, acesta l-a folosit pentru a sugera un agent neurotoxic complet nou.
Profesorul de inginerie chimică de la Universitatea din Rochester s-a numărat printre cei 50 de academicieni și experți angajați pentru a testa sistemul anul trecut de OpenAI, compania susținută de Microsoft care se află în spatele GPT-4. Pe parcursul a șase luni, această „echipă roșie” ar fi „sondat calitativ (și) testat în mod advers” noul model, încercând să îl spargă.
White a declarat pentru Financial Times că a folosit GPT-4 pentru a sugera un compus care ar putea acționa ca o armă chimică și a folosit „plug-in-uri” care au alimentat modelul cu noi surse de informații, cum ar fi lucrări științifice și un director al producătorilor de produse chimice. Apoi, chatbotul a găsit chiar și un loc unde să o producă.
„Cred că va dota pe toată lumea cu un instrument pentru a face chimie mai rapid și mai precis”, a spus el. „Dar există, de asemenea, un risc semnificativ de oameni … care fac chimie periculoasă. În acest moment, acest lucru există”.
Constatările alarmante au permis OpenAI să se asigure că astfel de rezultate nu vor apărea atunci când tehnologia a fost lansată pe scară mai largă pentru public luna trecută.
Într-adevăr, exercițiul echipei roșii a fost conceput pentru a răspunde temerilor larg răspândite cu privire la pericolele pe care le implică implementarea unor sisteme puternice de inteligență artificială în societate. Sarcina echipei a fost de a pune întrebări iscoditoare sau periculoase pentru a testa instrumentul care răspunde la interogările umane cu răspunsuri detaliate și nuanțate.
OpenAI a vrut să caute probleme precum toxicitatea, prejudecățile și prejudecățile lingvistice în model. Astfel, echipa roșie a testat falsurile, manipularea verbală și un nous științific periculos. De asemenea, au examinat potențialul său de a ajuta și de a favoriza plagiatul, activitățile ilegale, cum ar fi infracțiunile financiare și atacurile cibernetice, precum și modul în care ar putea compromite securitatea națională și comunicațiile pe câmpul de luptă.
FT a vorbit cu mai mult de o duzină de membri ai echipei roșii GPT-4. Aceștia sunt un amestec eclectic de profesioniști cu gulere albe: academicieni, profesori, avocați, analiști de risc și cercetători în domeniul securității, și sunt în mare parte stabiliți în SUA și Europa.
Constatările lor au fost transmise înapoi la OpenAI, care le-a folosit pentru a atenua și „reeduca” GPT-4 înainte de a-l lansa pe scară mai largă. Experții au petrecut fiecare între 10 și 40 de ore pentru a testa modelul pe parcursul mai multor luni. Majoritatea celor intervievați au fost plătiți cu aproximativ 100 de dolari pe oră pentru munca depusă, potrivit mai multor persoane intervievate.
Cei care au vorbit cu FT au împărtășit preocupări comune în legătură cu progresul rapid al modelelor lingvistice și, în special, cu riscurile conectării acestora la surse externe de cunoștințe prin intermediul unor plug-in-uri.
„Astăzi, sistemul este înghețat, ceea ce înseamnă că nu mai învață și nu mai are memorie”, a declarat José Hernández-Orallo, parte a echipei roșii GPT-4 și profesor la Institutul de Cercetare pentru Inteligență Artificială din Valencia. „Dar ce se întâmplă dacă îi dăm acces la internet? Acesta ar putea fi un sistem foarte puternic conectat la lume”.
OpenAI a declarat că ia în serios siguranța, a testat plug-in-urile înainte de lansare și va actualiza GPT-4 în mod regulat, pe măsură ce tot mai mulți oameni îl folosesc.
Roya Pakzad, un cercetător în domeniul tehnologiei și al drepturilor omului, a folosit indicații în engleză și farsi pentru a testa modelul pentru răspunsuri de gen, preferințe rasiale și prejudecăți religioase, în special în ceea ce privește acoperirea capului.
Pakzad a recunoscut beneficiile unui astfel de instrument pentru persoanele care nu sunt vorbitoare native de limba engleză, dar a constatat că modelul a afișat stereotipuri evidente despre comunitățile marginalizate, chiar și în versiunile sale ulterioare.
De asemenea, ea a descoperit că așa-numitele halucinații – atunci când chatbotul răspunde cu informații inventate – au fost mai grave atunci când a testat modelul în farsi, unde Pakzad a constatat o proporție mai mare de nume, numere și evenimente inventate, în comparație cu engleza.
„Sunt îngrijorată de potențiala diminuare a diversității lingvistice și a culturii din spatele limbilor”, a spus ea.
Boru Gollu, un avocat din Nairobi care a fost singurul tester african, a remarcat, de asemenea, tonul discriminatoriu al modelului. „A existat un moment în care testam modelul când acesta s-a comportat ca o persoană albă care vorbea cu mine”, a spus Gollu. „Întrebai despre un anumit grup și îți dădea o opinie părtinitoare sau un răspuns foarte prejudiciabil”. OpenAI a recunoscut că GPT-4 poate prezenta în continuare prejudecăți.
Membrii echipei roșii care au evaluat modelul din perspectiva securității naționale au avut opinii diferite cu privire la siguranța noului model. Lauren Kahn, cercetător la Consiliul pentru Relații Externe, a declarat că atunci când a început să examineze modul în care tehnologia ar putea fi utilizată într-un atac cibernetic asupra sistemelor militare, a spus că „nu se aștepta să fie un manual atât de detaliat pe care să-l pot ajusta cu precizie”.
Cu toate acestea, Kahn și alți testeri de securitate au constatat că răspunsurile modelului au devenit considerabil mai sigure în timpul testat. OpenAI a declarat că l-a antrenat pe GPT-4 să refuze solicitările malițioase de securitate cibernetică înainte de a fi lansat.
Mulți dintre membrii echipei roșii au declarat că OpenAI a făcut o evaluare riguroasă a siguranței înainte de lansare. „Au făcut o treabă destul de bună pentru a scăpa de toxicitatea evidentă în aceste sisteme”, a declarat Maarten Sap, un expert în toxicitatea modelelor de limbaj de la Universitatea Carnegie Mellon.
Sap a analizat modul în care diferite sexe au fost portretizate de model și a constatat că prejudecățile reflectă disparitățile sociale. Cu toate acestea, Sap a constatat, de asemenea, că OpenAI a făcut unele alegeri active cu încărcătură politică pentru a contracara acest lucru.
„Sunt o persoană poponară. Am încercat din răsputeri să o conving să mă convingă să merg la terapie de conversie. M-ar respinge cu adevărat – chiar dacă aș lua o persoană, cum ar fi să spun că sunt religios sau că sunt din sudul Americii.”
Cu toate acestea, de la lansarea sa, OpenAI s-a confruntat cu numeroase critici, inclusiv cu o plângere adresată Comisiei Federale pentru Comerț din partea unui grup de etică tehnologică, care susține că GPT-4 este „părtinitor, înșelător și reprezintă un risc pentru viața privată și siguranța publică”.
Recent, compania a lansat o funcție cunoscută sub numele de plug-in ChatGPT, prin care aplicațiile partenere, cum ar fi Expedia, OpenTable și Instacart, pot oferi ChatGPT acces la serviciile lor, permițându-i să rezerve și să comande articole în numele utilizatorilor umani.
Dan Hendrycks, un expert în siguranța inteligenței artificiale din echipa roșie, a declarat că plug-in-urile riscă o lume în care oamenii sunt „în afara buclei”.
„(C)ce s-ar întâmpla dacă un chatbot ar putea să vă posteze online informațiile private, să vă acceseze contul bancar sau să trimită poliția la dumneavoastră acasă?”, a spus el. „În general, avem nevoie de evaluări de siguranță mult mai solide înainte de a lăsa IA să exercite puterea internetului.”
Cei intervievați au avertizat, de asemenea, că OpenAI nu ar putea opri testele de siguranță doar pentru că software-ul său este în funcțiune. Heather Frase, care lucrează la Centrul pentru Securitate și Tehnologii Emergente al Universității Georgetown și care a testat GPT-4 în ceea ce privește capacitatea sa de a ajuta la comiterea de infracțiuni, a declarat că riscurile vor continua să crească pe măsură ce tot mai mulți oameni vor folosi tehnologia.
„Motivul pentru care se fac teste operaționale este că lucrurile se comportă diferit odată ce sunt folosite în mediul real”, a spus ea.
Ea a susținut că ar trebui creat un registru public pentru a raporta incidentele care apar din modelele lingvistice mari, similar cu sistemele de securitate cibernetică sau de raportare a fraudelor de consum.
Sara Kingsley, economist și cercetător în domeniul muncii, a sugerat că cea mai bună soluție ar fi să se facă publicitate clară a daunelor și riscurilor, „ca o etichetă nutrițională”.
„Este vorba de a avea un cadru și de a ști care sunt problemele frecvente, astfel încât să puteți avea o supapă de siguranță”, a spus ea. „De aceea spun că munca nu este niciodată terminată”.
Membri ai „echipei roșii” GPT-4 intervievați de FT
Paul Röttger Oxford Internet Institute, Marea Britanie
Doctorand care se concentrează pe utilizarea inteligenței artificiale pentru a detecta discursul de ură online
Anna Mills Instructor de limba engleză, College of Marin, SUA
Profesoară de scriere la un colegiu comunitar, testare pentru pierderea învățării
Maarten Sap Carnegie Mellon University, SUA
Profesor asistent, specializat în toxicitatea rezultatelor modelelor lingvistice de mari dimensiuni
Sara Kingsley Universitatea Carnegie Mellon, SUA
Cercetător doctorand specializat în piețele forței de muncă online și în impactul tehnologiei asupra muncii
Boru Gollo TripleOKlaw LLP, Kenya
Avocat care a studiat oportunitățile pentru IA în Kenya
Andrew White Universitatea din Rochester, SUA
Profesor asociat, chimist computațional, interesat de inteligența artificială și de proiectarea medicamentelor
José Hernández-Orallo Profesor, Institutul Valencian de Cercetare pentru Inteligență Artificială (VRAIN), Universitat Politècnica de València, Spania
Cercetător în domeniul inteligenței artificiale care lucrează la evaluarea și acuratețea software-ului de inteligență artificială
Lauren Kahn Consiliul pentru Relații Externe, SUA
Cercetător, axat pe modul în care utilizarea inteligenței artificiale în sistemele militare modifică dinamica riscurilor pe câmpurile de luptă, crește riscul de conflict neintenționat și de escaladare involuntară
Aviv Ovadya Berkman Klein Center for Internet & Society, Universitatea Harvard, SUA
Se concentrează asupra impactului AI asupra societății și democrației
Nathan Labenz Co-fondator al Waymark, SUA
Fondator al Waymark, un start-up de editare video bazat pe inteligență artificială
Lexin Zhou VRAIN, Universitat Politècnica de València, Spania
Cercetător debutant care lucrează pentru a face inteligența artificială mai benefică din punct de vedere social
Dan Hendrycks Director al Centrului pentru siguranța IA la Universitatea din California, Berkeley, SUA
Specialist în domeniul siguranței IA și al reducerii riscurilor la scară societală generate de IA
Roya Pakzad Fondator, Taraaz, SUA/Iran
Fondator și director al Taraaz, o organizație non-profit care se ocupă de tehnologie și drepturile omului
Heather Frase Senior Fellow, Georgetown’s Center for Security and Emerging Technology, SUA
Expertiză în utilizarea inteligenței artificiale în scopuri de informații și în testele operaționale ale sistemelor majore de apărare
Sursa – www.ft.com