Google wants to make its robots smarter with the release of the AI learning model Robotic Transformer (RT-2). RT-2 is the new version of what the company calls its vision-language-action (VLA) model, which teaches robots to better recognize visual and language patterns, interpret instructions, and infer what objects work best for the request. Researchers tested RT-2 with a robotic arm in a kitchen office setting, asking it to decide what makes a good improvised hammer (it chose a rock) and to choose a drink to give to an exhausted person (it chose a Red Bull). The model was trained on web and robotics data, leveraging research advances in large language models like Google’s own Bard and combining it with robotic data (like which joints to move). Google's new robot is not perfect. The New York Times saw a live demo of the robot and reported that it incorrectly identified soda flavors and misidentified fruit as the color white.
구글은 로봇용 AI 학습모델인 Robotic Transformer (RT-2)를 출시했다. RT-2는 구글이 시각-언어-행동(VLA) 모델이라고 부르는 새로운 버전으로, 로봇이 시각적 언어 패턴을 더 잘 인식하고 지시사항을 해석하며, 요청에 가장 적합한 객체를 추론하도록 한다. 연구자들은 주방 사무실 환경에서 로봇 팔로 망치나 음료를 선택하는 행동을 테스트했다. 이 모델은 웹과 로봇 데이터에 대해 학습하였고, 구글의 Bard와 같은 대형언어모델의 연구 발전을 활용하여 로봇 데이터와 결합했다. 물론 뉴욕타임스는 로봇이 소다 맛을 잘못 식별하고, 과일을 흰색으로 잘못 식별하는 등 완벽하지 않다고 보도했다.