Root NationНовиниIT fréttirMynd AI sýndi nýja færni mannkyns gervigreindar vélmenni þess

Mynd AI sýndi nýja færni mannkyns gervigreindar vélmenni þess

-

Þróun manneskjulegra vélmenna hefur gengið hægt í tvo áratugi, en nýlega höfum við séð fleiri og fleiri byltingar á þessu sviði. Eins og við skrifuðum nýlega var gervigreind vélmenni kynnt á MWC 2024 Ameríku, og önnur þróun, Unitree H1, sló hraðamet meðal manneskjulegra vélmenna. Og nú hefur stórkostlegur árangur af samstarfi Figure AI og OpenAI fyrirtækjanna birst á Netinu - töfrandi myndband af manngerðu vélmenni sem getur nú haldið samtölum við fólk.

Figure AI og OpenAI kynntu nýtt manneskjulegt vélmenni með AI

Startup Figure AI gaf út myndband sem sýnir mynd 01 vélmennið vinna með nýja Visual Language Model (VLM). Í henni stendur mynd 01 við borð sem er diskur, epli og bolli á. Það er þurrkari til vinstri. Og spurningunni um mann, hvað vélmennið sér fyrir framan sig, svarar hann með því að lýsa í smáatriðum öllu sem liggur á borðinu.

Og þá spyr maðurinn hvort hann megi borða eitthvað og vélmennið svarar: "Auðvitað", og svo tekur hann eplið og réttir manninum með lipurri hreyfingu. Eftir það kemur önnur töfrandi sýning - maður hellir krumpuðu rusli úr körfu fyrir framan mynd 01 og biður vélmennið að útskýra hvers vegna hann gerði þetta og safna um leið ruslinu í körfuna. Og hann útskýrir "hugsunina" sína á meðan hann setur blaðið aftur í ruslið. „Svo ég gaf þér epli því það er eina æta hluturinn sem ég gæti gefið þér af borðinu,“ sagði vélmennið.

Fulltrúar fyrirtækisins útskýrðu að mynd 01 notar fyrirfram þjálfað fjölþætt líkan OpenAI, VLM, til að skilja myndir og texta, og treystir á raddbeiðnir til að búa til svör sín. Þetta er frábrugðið til dæmis GPT-4 frá OpenAI, sem einbeitir sér að skriflegum leiðbeiningum.

Það notar einnig það sem fyrirtækið kallar "lærðar lág-stigi tvíhandvirkar meðferðir." Kerfið samhæfir nákvæma myndkvörðun (niður að pixlastigi) með tauganeti sínu fyrir hreyfistýringu. „Þessi net fá myndir við 10 Hz og mynda 24-DOF aðgerðir (úlnliðsstöður og fingurliðahorn) við 200 Hz,“ sagði í yfirlýsingu frá Figure AI.

Fyrirtækið heldur því fram að sérhver hegðun í myndbandinu sé byggð á kerfisnámi, þannig að enginn á bak við tjöldin er að toga í strengi á mynd 01. Auðvitað er blæbrigði - það er ekki vitað hversu oft vélmennið fór í gegnum þessa aðferð. Kannski var það í hundraðasta skiptið, sem skýrir nákvæmar hreyfingar hans. En í öllum tilvikum lítur þetta afrek stórkostlegt út og svolítið stórkostlegt.

Lestu líka:

Dzherelotækniradar
Skráðu þig
Tilkynna um
gestur

0 Comments
Innbyggðar umsagnir
Skoða allar athugasemdir