Când roboții învață să raționeze înainte de a acționa: DeepMind a prezentat două modele noi care cooperează pentru a coordona mișcări în lumea fizică, iar noutatea constă în faptul că nu mai e nevoie de antrenarea unui model separat pentru fiecare robot. Această evoluție conectează idei istorice despre automatizare și robotică, de la brațele industriale programate pentru o singură acțiune la agenți capabili să planifice serii de operațiuni, cu eforturile contemporane de a aduce inteligența artificială în spații reale, nu doar în laborator.
Imaginează-ți că vrei ca un robot să sorteze un morman de rufe în albe și colorate. Gemini Robotics-ER 1.5 primește comanda și imagini ale mediului, analizează scena și poate chiar folosi resurse externe, precum Google Search, pentru informații adiționale. Modelul ER generează apoi instrucțiuni în limbaj natural, pași concreți pe care robotul îi poate urma pentru a realiza sarcina. Astfel se leagă percepția de planificare, exact ca atunci când noi ne gândim o clipă înainte de a întinde mâna pentru a prinde ceva.
Gemini Robotics 1.5, denumit modelul de acțiune, primește aceste instrucțiuni de la ER și transformă textul în mișcări robotice, folosind intrare vizuală pentru a-și ghida manevrele. Echipa DeepMind subliniază că modelul nu se limitează la urmarea mecanică a comenzilor; el dispune și de un proces intern de „raționare” care îl ajută să decidă cum să abordeze fiecare pas. Kanishka Rao de la DeepMind spune că oamenii acționează după o intuiție care îi orientează, iar un progres important al versiunii 1.5 în VLA (Visual-Language Action) este tocmai capacitatea robotului de a gândi înainte de a acționa. Pe scurt, nu mai e doar „apasă butonul X”, ci „evaluează, planifică, execută”.
Ambele modele noi se bazează pe fundația Gemini, dar au fost adaptate cu date orientate spre operare în spațiul fizic. Această ajustare le permite roboților să rezolve sarcini mai complexe, desfășurate în mai multe etape, și le conferă ceea ce cercetătorii numesc capacități agentice, adică abilitatea de a lua decizii secvențiale pentru atingerea unui scop. DeepMind a testat aceste sisteme pe platforme diverse, de la brațul cu două agregate Aloha 2 până la humanoidul Apollo. Până acum, era nevoie de modele personalizate pentru fiecare tip de robot; acum, Gemini Robotics 1.5 poate învăța prin transfer de abilități între „întruchipări” diferite, de exemplu folosind experiența acumulată la prindere cu cleștele lui Aloha 2 pentru a opera mâinile mai sofisticate ale lui Apollo, fără ajustări speciale.
Desigur, ideea agenților fizici controlați de AI alimentează visuri despre roboți casnici care să ne ia din treburi, dar realitatea este mai nuanțată. Modelul care controlează efectiv roboții, Gemini Robotics 1.5, rămâne momentan disponibil doar pentru testeri de încredere. Partea care „gândește”, modelul ER, începe însă să fie pusă la dispoziție prin Google AI Studio, oferind dezvoltatorilor posibilitatea de a genera instrucțiuni robotice pentru propriile experimente cu roboți fizici. Asta înseamnă că ritmul de inovare ar putea accelera, dar aplicațiile practice rămân pentru moment într-un cadru controlat.
Gemini Robotics evidențiază două direcții cheie: integrarea percepției vizuale cu limbajul natural pentru planificare și transferul de abilități între platforme robotice. Aceste aspecte amintesc de etapele clasice ale roboticii, când fiecare mașină avea „rețeta” ei, și marchează trecerea spre o arhitectură mai modulară și generalizabilă. Totodată, restricția accesului la modelul de control reflectă preocupări legate de siguranță, stabilitate și testare înainte de implementarea pe scară largă. Dacă vrei detalii despre nume sau platforme concrete: Aloha 2 și Apollo sunt doi dintre roboții folosiți în teste, iar Google AI Studio e canalul prin care modelul ER începe să fie disponibil pentru dezvoltatori.
Gemini Robotics arată cât de mult au avansat sistemele care combină viziune și limbaj, dar e încă drum lung până la un robot de casă complet autonom. Creșterea capacității de a transfera abilități între diverse corpuri robotice indică o direcție practică: mai puține modele specifice și mai multă interoperabilitate. Rămâne de urmărit cum vor fi gestionate testele, cine va avea acces la tehnologie și ce norme de siguranță vor fi impuse. Crezi că roboții „gânditori” vor ajunge curând să se ocupe de treburile casnice sau vom vedea mai întâi aplicații industriale și de laborator?
Fii primul care comentează