Kampionati i vajzave U-17/ Vllaznia shpallet ekipi kampion për sezonin 2023/2024
AI tani mund të bëjë muzikë nga përshkrimet e tekstit
Ndërsa rrjetet nervore bëhen më të fuqishme, algoritmet janë bërë të afta të kthejnë tekstin e zakonshëm në imazhe, animacione dhe madje edhe video të shkurtra. Këto algoritme kanë krijuar polemika të rëndësishme. Një imazh i krijuar nga AI së fundmi fitoi çmimin e parë në një konkurs vjetor të artit ndërsa fototeka e aksioneve të Getty Images është aktualisht duke ndërmarrë veprime ligjore kundër zhvilluesve të një algoritmi të artit të AI se beson se ishte trajnuar në mënyrë të paligjshme duke përdorur imazhet e Getit.
Pra, ekuivalenti muzikor i këtyre sistemeve nuk duhet të jetë aq i papritur. E megjithatë, pasojat janë të jashtëzakonshme.
Një grup studiuesish në Google kanë zbuluar një sistem AI të aftë për të kthyer përshkrimet e teksteve të zakonshme në muzikë të pasur, të larmishme dhe relevante. Kompania i ka shfaqur këto aftësi duke përdorur përshkrime të veprave të famshme të artit për të gjeneruar muzikë.
Grupet e të dhënave të muzikës
Një faktor kyç në aktivizimin e sistemeve tekst-në-imazh është ekzistenca e grupeve të mëdha të të dhënave të imazheve me përshkrime. Këto më pas mund të përdoren për të trajnuar një rrjet nervor. Megjithatë, grupe të dhënash të ngjashme me shënime nuk ekzistojnë për muzikën.
Por në vitin 2022, Google Research zbuloi një algoritëm të quajtur MuLan që prodhon një përshkrim teksti të një pjese muzikore. Një përshkrim i mirë i tekstit zakonisht duhet të mbulojë ritmin, melodinë, timbrin dhe instrumentet dhe zërat e ndryshëm muzikorë që mund të përmbajë.
Tani Christian Frank dhe kolegët në Google Research kanë përdorur MuLan për të gjeneruar tituj përshkrues të muzikës pa të drejtë autori. Më pas përdorni këtë bazë të dhënash për të trajnuar një rrjet tjetër nervor për të bërë detyrën e kundërt të shndërrimit të një titulli në një pjesë muzikore. Ata e quajnë algoritmin e ri MusicLM dhe tregojnë se si ai gjeneron muzikë bazuar në çdo tekst të dhënë ose mund të modifikojë skedarët audio të gumëzhimave ose fishkëllimave në një mënyrë që pasqyron një titull.
Vlerësimi i një algoritmi të tillë është një detyrë e vështirë sepse kërkon një grup të dhënash standarde të arta të skedarëve muzikorë të shënuar, të krijuar në mënyrë ideale nga njerëzit. Kështu që Frank dhe bashkë krijuan një të tillë. Ata kërkuan dhjetë muzikantë profesionistë të shkruanin përshkrime teksti të 5500 klipeve muzikore dhjetë sekondash.
Çdo përshkrim përbëhet nga rreth katër fjali që përshkruajnë zhanrin, gjendjen shpirtërore, tempin, zërat e këngëtarëve, instrumentimin, disonancat, ritmin etj. Ekipi e quan këtë bazë të dhënash MusicCap dhe e ka bërë publike në mënyrë që të tjerët ta përdorin atë si një standard të artë.
Frank dhe bashkë vlerësojnë më pas muzikën nga MusicLM duke parë cilësinë e audios dhe sa mirë i përmbahet përshkrimit audio.
Rezultatet flasin (ose luajnë) vetë. Për të shfaqur algoritmin, Frank dhe bashkë dhanë përshkrimet e tekstit të MusicLM të disa pikturave të famshme dhe publikuan muzikën që rezultoi.
Këtu janë disa nga rezultatet:
The Persistence of Memory nga Salvador Dalí (Burimi: Wikipedia)
Qëndrueshmëria e kujtesës nga Salvador Dalí (kliko për të dëgjuar)
The Scream nga Edvard Munch (Burimi: Wikipedia)
The Scream nga Edvard Munch (kliko për të dëgjuar)
Nata me yje nga Vincent van Gogh (Burimi Wikipedia)
Nata me yje nga Vincent van Gogh (kliko për të dëgjuar)
Puthja nga Gustav Klimt (Burimi: Wikipedia)
Puthja nga Gustav Klimt (kliko për të dëgjuar)
Ekipi është liruar rezultate të tjera këtu.
Algoritmi nuk është i përsosur, sigurisht. Një problem i rëndësishëm është se algoritmi vuan nga të njëjtat paragjykime si të dhënat e përdorura për ta trajnuar atë. Kjo ngre pyetje “në lidhje me përshtatshmërinë për gjenerimin e muzikës për kulturat e nënpërfaqësuara në të dhënat e trajnimit, ndërsa në të njëjtën kohë gjithashtu ngre shqetësime për përvetësimin kulturor”, thonë studiuesit.
Pastaj është çështja e përvetësimit në përgjithësi – riprodhimi i punës krijuese të krijuar nga të tjerët. Për të shmangur këtë problem, ekipi përdori grupe të dhënash të hapura muzikore që nuk kanë të drejtë autori. Por ata gjithashtu testuan daljen për të parë se sa i ngjante të dhënave hyrëse. “Ne zbuluam se vetëm një pjesë e vogël e shembujve ishte memorizuar saktësisht, ndërsa për 1% të shembujve ne mund të identifikonim një përputhje të përafërt,” thonë Frank dhe bashkë.
Sidoqoftë, kjo është punë interesante që duhet të zgjerojë në mënyrë dramatike grupet e mjeteve të AI në dispozicion për punëtorët krijues. Nuk është e vështirë të imagjinohet sistemi i AI duke krijuar vepra të tilla si filma të shkurtër, në të cilët skenari është shkruar nga një AI, i kthyer në video nga një AI me një kolonë zanore të krijuar nga një AI – të gjitha të bazuara në një hyrje teksti relativisht të shkurtër nga një njeri. .
Është e pashmangshme që këto rezultate përfundimisht do të bëhen të vështira për t’u dalluar nga videot reale.
Google nuk e ka bërë MusicLM të aksesueshme për publikun. Por sigurisht që duhet të jetë vetëm një çështje kohe përpara se dikush tjetër të krijojë një AI me aftësi të ngjashme që është në dispozicion të publikut.
Sa kohë para se këta filma të fillojnë të fitojnë çmime në festivalet e filmit, të fillojnë të përhapen në rrjetet sociale dhe të bëhen vetë objektiva e çështjeve ligjore?
Ref: MusicLM: Gjenerimi i muzikës nga teksti: arxiv.org/abs/2301.11325
Source link