NVIDIA researchers are presenting new vision-generating AI models and technologies this week at the Computer Vision and Pattern Recognition (CVPR) Conference in Seattle. This presentation covers a variety of fields, including custom image creation, 3D scene editing, visual language understanding, and autonomous vehicle recognition. “Artificial intelligence, especially generative AI, represents a significant technological advance,” said Jan Kautz, vice president of Learning and Cognition Research at NVIDIA. “At CVPR, NVIDIA Research is sharing how we are pushing the boundaries of what is possible, from powerful image generation models to self-driving software that could enable the next generation of self-driving cars.” In the field of visual language, NVIDIA collaborated with MIT to develop VILA, a new visual language model that achieves state-of-the-art performance in understanding images, video, and text. With enhanced reasoning capabilities, VILA can even understand internet memes by combining visual and verbal understanding. The breadth of NVIDIA's CVPR research demonstrates how generative AI can empower creators, accelerate automation in manufacturing and healthcare, and advance autonomy and robotics.
비디아 연구원들이 이번 주 시애틀에서 열리는 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에서 새로운 시각 생성 AI 모델과 기술을 발표한다. 이번 발표는 맞춤형 이미지 생성, 3D 장면 편집, 시각 언어 이해, 자율 주행 차량 인식 등 다양한 분야를 아우른다. 엔비디아의 학습 및 인식 연구 부문 부사장인 얀 카우츠(Jan Kautz)는 “인공지능, 특히 생성 AI는 중요한 기술적 진보를 나타낸다”라며, “CVPR에서 NVIDIA Research는 강력한 이미지 생성 모델부터 다음 세대 자율 주행 자동차를 가능하게 할 수 있는 자율 주행 소프트웨어에 이르기까지 우리가 가능한 것의 경계를 어떻게 넓히고 있는지 공유하고 있다”라고 밝혔다. 시각 언어 분야에서는 엔비디아가 MIT와 협력하여 이미지, 비디오 및 텍스트를 이해하는 데 있어 최첨단 성능을 달성하는 새로운 시각 언어 모델 VILA를 개발했다. 향상된 추론 능력을 갖춘 VILA는 시각적 및 언어적 이해를 결합하여 인터넷 밈까지도 이해할 수 있다. 엔비디아의 CVPR 연구의 폭넓은 범위는 생성 AI가 창작자들을 어떻게 지원하고, 제조 및 의료 분야에서 자동화를 가속화하며, 자율성 및 로봇 공학을 발전시킬 수 있는지 잘 보여준다.