Root NationНовиниIT fréttirNý gervigreind Microsoft líkir eftir rödd hvers manns úr 3 sekúndna hljóðsýni

Ný gervigreind Microsoft líkir eftir rödd hvers manns úr 3 sekúndna hljóðsýni

-

Á fimmtudaginn, vísindamenn Microsoft tilkynnti um nýtt gervigreind (AI) líkan sem kallast VALL-E sem getur líkt nákvæmlega eftir mannsrödd þegar það er gefið þriggja sekúndna hljóðsýni. Þegar það hefur lært ákveðna rödd getur VALL-E búið til hljóð af viðkomandi sem segir hvað sem er en varðveitir tilfinningalegan tón hátalarans.

Höfundar þess leggja til að hægt sé að nota VALL-E fyrir hágæða texta-í-tal, talvinnslu, þar sem hægt er að breyta upptöku einstaklings og breyta úr textauppskrift (sem gerir það að verkum að hann segi hluti sem hann sagði ekki upphaflega), og til að búa til hljóðefni ásamt öðrum skapandi gervigreindum gerðum eins og GPT-3.

Microsoft AI VALL-E

Microsoft kallar ALL-E „taugakóðamálslíkan“ og það er byggt á tækni sem kallast EnCodec sem Meta tilkynnti í október 2022. Ólíkt öðrum texta-til-tali aðferðum, sem venjulega búa til tal með því að hagræða bylgjuformum, býr VALL-E til stakt hljóð merkjamál kóða frá texta og hljóðupplýsingum. Það greinir í grundvallaratriðum hvernig manneskja hljómar, skiptir þeim upplýsingum niður í staka hluti (kallaðir „tákn“) þökk sé EnCodec og notar þjálfunargögn til að passa við það sem hún „veit“ um hvernig þessi rödd myndi hljóma ef hún talaði aðrar setningar utan af þriggja sekúndna úrtakinu.

Microsoft þjálfaði talgervilsgetu ALL-E á hljóðsafni sem Meta hefur tekið saman sem heitir LibriLight. Það inniheldur 60 klukkustundir af útsendingum á ensku frá meira en 7 boðberum, aðallega teknar úr LibriVox hljóðbókum sem eru aðgengilegar almenningi.

Auk þess að varðveita raddhljóminn og tilfinningalegan tón boðberans getur VALL-E einnig líkt eftir „hljóðumhverfi“ hljóðsýnisins. Til dæmis, ef sýnishornið var fengið úr símtali, mun tilbúið hljóðúttak líkja eftir hljóð- og tíðnieiginleikum símtalsins. Einnig sýnishorn Microsoft sýna fram á að VALL-E getur framkallað raddviðbrigði.

Microsoft AI VALL-E

Kannski vegna getu ALL-E til að auðvelda svik og blekkingar, Microsoft hefur ekki gefið ALL-E kóðann fyrir aðra til að gera tilraunir með, svo við munum ekki geta prófað getu hans. Vísindamenn virðast vera meðvitaðir um hugsanlegan félagslegan skaða sem þessi tækni gæti haft í för með sér. Í niðurlagi greinarinnar skrifa þeir:

„Vegna þess að ALL-E getur búið til tal sem varðveitir sjálfsmynd hátalarans, getur það haft í för með sér hugsanlega hættu á misnotkun líkana, svo sem að svíkja raddauðkenni eða að líkja eftir tilteknum hátalara. Til að draga úr slíkri áhættu verður smíðað viðurkenningarlíkan til að greina hvort hljóðinnskot hafi verið myndað með VALL-E.“

Þú getur hjálpað Úkraínu að berjast gegn rússnesku innrásarhernum. Besta leiðin til að gera þetta er að gefa fé til hersins í Úkraínu í gegnum Bjarga lífi eða í gegnum opinberu síðuna NBU.

Lestu líka:

Dzherelolisttækni
Skráðu þig
Tilkynna um
gestur

0 Comments
Innbyggðar umsagnir
Skoða allar athugasemdir