피지컬 AI
피지컬 AI를 고도화하는 월드 파운데이션 모델 개발
개요
NVIDIA Cosmos™는 최첨단 생성형 월드 파운데이션 모델(WFM), 고급 토크나이저, 가이드레일, 그리고 고속 데이터 처리 및 정제 파이프라인으로 구성된 플랫폼입니다. 이 플랫폼은 자율주행차(AV)와 로봇의 피지컬 AI 개발을 가속하고, 월드 모델 학습을 지원하도록 설계되었습니다.
오픈 모델
개발자가 바로 활용할 수 있는 사전 학습된 멀티모달 생성형 모델로, 월드 생성이나 추론에 사용할 수 있고, 후속 학습을 거쳐 특화된 피지컬 AI 모델로 발전시킬 수도 있습니다.
멀티모달 입력을 기반으로 최대 30초의 연속 영상을 생성할 수 있는 최첨단 월드 상태 예측 모델은 우수한 속도, 사실성 및 프롬프트 준수율을 갖추고 있습니다.
멀티컨트롤 모델은 단일 시뮬레이션 또는 공간 영상을 다양한 환경 및 조명 조건에 맞춰 빠르게 확장할 수 있습니다.
CARLA나 NVIDIA Isaac Sim™과 같은 피지컬 AI 시뮬레이션 프레임워크의 3D 입력을 가속화하여 완전히 제어가 가능한 데이터 증강 및 합성 데이터 생성 파이프라인을 구현합니다.
완전 맞춤형 추론 비전 언어 모델(VLM)은 영상과 이미지를 기반으로 한 구조적 추론을 사용하여 인간과 같은 물리적 세계를 이해하는 데 탁월합니다.
도시 및 산업 운영에 대한 시공간적 이해를 통해 영상 분석 AI 에이전트를 실시간으로 지원하고, 로보틱스 및 자율주행차(AV)를 위한 훈련 데이터를 선별하며, 로봇 의사 결정을 지원하도록 설계되었습니다.
NVIDIA Cosmos Curator는 개발자가 피지컬 AI 개발에 필요한 대량의 센서 데이터를 빠르게 필터링, 검색 및 주석 및 중복 제거할 수 있도록 지원하며, 모델 요구 사항에 맞는 맞춤형 데이터셋을 생성할 수 있도록 지원합니다.
효율적인 데이터셋 처리 및 생성 속도를 가속화합니다.
사용 사례
Cosmos 월드 파운데이션 모델을 사용하여 로보틱스, 자율주행차, 산업 비전 시스템을 위한 데이터를 가속화하고 추론하며 생성합니다.
로봇이 주변 환경을 정확히 인식하고 능동적으로 상호작용하려면 방대한 양의 다양하고 정교한 학습 데이터가 필요합니다. 개발자는 Cosmos 월드 파운데이션 모델을 사용하여 로봇 인식 및 과정 모델을 훈련하기 위한 제어 가능하고 고품질 합성 데이터를 생성할 수 있습니다.
다양하고 고품질의 센서 데이터는 자율주행차를 안전하게 학습하고, 테스트하며, 검증하는 데 중요합니다. 차량 데이터를 기반으로 후속 학습된 Cosmos WFM을 활용하면, 개발자는 기존 데이터를 다양한 날씨, 조명, 지리적 조건으로 확장하거나 멀티 센서 시점으로 확장할 수 있어 시간과 비용을 크게 절감할 수 있습니다.
이러한 AI 에이전트는 실시간 또는 녹화된 영상 스트림을 분석하고 요약하며, 상호 작용을 통해서 산업 및 도시 환경 전반에서 자동화, 안전성 및 운영 효율성을 향상시킬 수 있습니다.
Cosmos Reason은 비디오 분석 AI 에이전트를 시공간적 추론과 현실 세계에 대한 고급 시각적 이해를 지원하는 맞춤형 비전 언어 모델(VLM)입니다. 이러한 AI 에이전트는 실시간 질의응답, 신속한 알림, 풍부한 맥락적 인사이트를 제공하여 엣지 및 클라우드 배포 개발에서 더 스마트하고 민첩한 시스템을 구현할 수 있습니다.
신뢰할 수 있는 AI
Cosmos 모델, 가드레일, 토크나이저는 Hugging Face와 GitHub에서 이용할 수 있으며, 피지컬 AI 모델 학습 시 데이터 부족 문제를 해결할 수 있는 다양한 리소스도 함께 제공합니다.
AI 인프라
NVIDIA RTX PRO 6000 Blackwell 시리즈 서버는 로봇, 자율주행 차량, AI 에이전트의 피지컬 AI 개발을 가속화하며, 학습부터 합성 데이터 생성, 시뮬레이션, 추론까지 전 과정에서 성능을 높여줍니다.
산업용 후속 학습과 추론 워크로드에서는 NVIDIA Blackwell GB200을 통해 Cosmos 월드 기반 모델의 성능을 극대화할 수 있습니다.
에코시스템
로보틱스, 자율주행, 비전 AI 분야의 모델 개발자들이 Cosmos를 활용하여 피지컬 AI 개발을 가속화하고 있습니다.
이 문서와 함께 시작해 보세요. Cosmos WFM은 Hugging Face에서 공개되어 있으며, 추론 및 사후 학습 스크립트는 GitHub에서 제공됩니다. 또한 개발자는 GitHub 및 Hugging Face의 /NVIDIA/cosmos-tokenizer에서 Cosmos 토크나이저를 사용할 수 있습니다.
Cosmos WFM은 NVIDIA 오픈 모델 라이선스를 통해 모든 사람이 사용할 수 있습니다.
PyTorch 스크립트는 사후 훈련을 위해 모든 Cosmos 모델에 공개적으로 사용할 수 있습니다. 사후 훈련 관련 단계별 가이드는 이 문서를 읽어보세요.
예, Cosmos를 활용하여 선호하는 파운데이션 모델 또는 모델 아키텍처를 기반으로 처음부터 구축할 수 있습니다. NeMo Curator를 사용하여 먼저 비디오 데이터 전처리 작업을 합니다. 그런 다음 Cosmos 토크나이저를 사용하여 데이터를 압축하고 디코딩합니다. 데이터 처리가 완료되면 NVIDIA NeMo를 사용하여 모델을 학습시키거나 파인튜닝할 수 있습니다.
NVIDIA NIM™ 마이크로서비스를 사용하면 클라우드, 데이터센터, 워크스테이션 등 다양한 환경에서 애플리케이션에 쉽게 통합할 수 있습니다.
NVIDIA DGX Cloud를 활용해 AI 모델을 훈련하고 어디에서나 대규모 배포할 수도 있습니다.
세 가지 모두 서로 다른 역할을 가진 WFM입니다.
Cosmos Reason은 Cosmos Predict를 위한 하나의 시작 영상에서 새롭고 다양한 텍스트 프롬프트를 생성하거나 Predict 및 Transfer가 생성한 합성 데이터를 비평할 수 있습니다.
Omniverse는 다양한 생성형 API, SDK, NVIDIA RTX 렌더링 기술을 활용하여 실제 작업에 대한 사실적인 3D 시뮬레이션을 생성합니다.
개발자는 Omniverse 시뮬레이션을 Cosmos Transfer 모델에 입력하고, 제어 가능한 포토리얼 합성 데이터를 생성할 수 있습니다.
Omniverse는 훈련 전과 후의 시뮬레이션 환경을 제공하고, Cosmos는 영상 데이터를 생성하고 피지컬 AI 모델을 훈련할 수 있는 파운데이션 모델을 제공합니다.
NVIDIA Omniverse에 대해 자세히 알아보세요.