피지컬 AI

NVIDIA Cosmos

피지컬 AI를 고도화하는 월드 파운데이션 모델 개발

개요

NVIDIA Cosmos는 무엇인가요?

NVIDIA Cosmos™는 최첨단 생성형 월드 파운데이션 모델(WFM), 고급 토크나이저, 가이드레일, 그리고 고속 데이터 처리 및 정제 파이프라인으로 구성된 플랫폼입니다. 이 플랫폼은 자율주행차(AV)와 로봇피지컬 AI 개발을 가속하고, 월드 모델 학습을 지원하도록 설계되었습니다.

NVIDIA, 새로운 Cosmos 피지컬 AI 모델 공개

Cosmos Transfer와 Reason을 포함한 NVIDIA Cosmos 모델의 최신 버전이 자율주행차, 로봇, 영상 분석 AI 에이전트를 위한 세계 생성과 이해를 어떻게 지원하는지 알아보세요.

NVIDIA, 자율주행차 에코시스템 발전을 위한 새로운 AI 모델과 개발 도구 공개

새로운 Cosmos Predict-2 WFM과 피지컬 AI 데이터세트는 미래 상황을 더 정밀하게 예측할 수 있어 고품질 합성 데이터 생성이 가능하도록 하며, 자율주행차 학습 속도를 크게 높여줍니다.

오픈 모델

피지컬 AI을 위한 Cosmos 모델의 개발

개발자가 바로 활용할 수 있는 사전 학습된 멀티모달 생성형 모델로, 월드 생성이나 추론에 사용할 수 있고, 후속 학습을 거쳐 특화된 피지컬 AI 모델로 발전시킬 수도 있습니다.

Cosmos Predict

멀티모달 입력을 기반으로 최대 30초의 연속 영상을 생성할 수 있는 최첨단 월드 상태 예측 모델은 우수한 속도, 사실성 및 프롬프트 준수율을 갖추고 있습니다.

Cosmos Transfer

멀티컨트롤 모델은 단일 시뮬레이션 또는 공간 영상을 다양한 환경 및 조명 조건에 맞춰 빠르게 확장할 수 있습니다.

CARLA나 NVIDIA Isaac Sim™과 같은 피지컬 AI 시뮬레이션 프레임워크의 3D 입력을 가속화하여 완전히 제어가 가능한 데이터 증강 및 합성 데이터 생성 파이프라인을 구현합니다.

Cosmos Reason

완전 맞춤형 추론 비전 언어 모델(VLM)은 영상과 이미지를 기반으로 한 구조적 추론을 사용하여 인간과 같은 물리적 세계를 이해하는 데 탁월합니다.

도시 및 산업 운영에 대한 시공간적 이해를 통해 영상 분석 AI 에이전트를 실시간으로 지원하고, 로보틱스 및 자율주행차(AV)를 위한 훈련 데이터를 선별하며, 로봇 의사 결정을 지원하도록 설계되었습니다.

데이터 큐레이션

NVIDIA Cosmos Curator는 개발자가 피지컬 AI 개발에 필요한 대량의 센서 데이터를 빠르게 필터링, 검색 및 주석 및 중복 제거할 수 있도록 지원하며, 모델 요구 사항에 맞는 맞춤형 데이터셋을 생성할 수 있도록 지원합니다.

효율적인 데이터셋 처리 및 생성 속도를 가속화합니다.


사용 사례

Cosmos가 다양한 산업에서 AI 혁신을 가속하는 방법

Cosmos 월드 파운데이션 모델을 사용하여 로보틱스, 자율주행차, 산업 비전 시스템을 위한 데이터를 가속화하고 추론하며 생성합니다.

로봇 학습

로봇이 주변 환경을 정확히 인식하고 능동적으로 상호작용하려면 방대한 양의 다양하고 정교한 학습 데이터가 필요합니다. 개발자는 Cosmos 월드 파운데이션 모델을 사용하여 로봇 인식 및 과정 모델을 훈련하기 위한 제어 가능하고 고품질 합성 데이터를 생성할 수 있습니다.

자율주행차 학습

다양하고 고품질의 센서 데이터는 자율주행차를 안전하게 학습하고, 테스트하며, 검증하는 데 중요합니다. 차량 데이터를 기반으로 후속 학습된 Cosmos WFM을 활용하면, 개발자는 기존 데이터를 다양한 날씨, 조명, 지리적 조건으로 확장하거나 멀티 센서 시점으로 확장할 수 있어 시간과 비용을 크게 절감할 수 있습니다.

영상 분석 AI 에이전트

이러한 AI 에이전트는 실시간 또는 녹화된 영상 스트림을 분석하고 요약하며, 상호 작용을 통해서 산업 및 도시 환경 전반에서 자동화, 안전성 및 운영 효율성을 향상시킬 수 있습니다.

Cosmos Reason은 비디오 분석 AI 에이전트를 시공간적 추론과 현실 세계에 대한 고급 시각적 이해를 지원하는 맞춤형 비전 언어 모델(VLM)입니다. 이러한 AI 에이전트는 실시간 질의응답, 신속한 알림, 풍부한 맥락적 인사이트를 제공하여 엣지 및 클라우드 배포 개발에서 더 스마트하고 민첩한 시스템을 구현할 수 있습니다.

신뢰할 수 있는 AI

피지컬 AI 커뮤니티 지원

Cosmos 모델, 가드레일, 토크나이저는 Hugging Face와 GitHub에서 이용할 수 있으며, 피지컬 AI 모델 학습 시 데이터 부족 문제를 해결할 수 있는 다양한 리소스도 함께 제공합니다.

AI 인프라

NVIDIA Blackwell을 통해 최고의 성능을 경험하세요.

NVIDIA RTX PRO 6000 Blackwell 시리즈 서버는 로봇, 자율주행 차량, AI 에이전트의 피지컬 AI 개발을 가속화하며, 학습부터 합성 데이터 생성, 시뮬레이션, 추론까지 전 과정에서 성능을 높여줍니다.

산업용 후속 학습과 추론 워크로드에서는 NVIDIA Blackwell GB200을 통해 Cosmos 월드 기반 모델의 성능을 극대화할 수 있습니다. 

에코시스템

선도적인 피지컬 AI 혁신 기업들이 선택한 Cosmos

로보틱스, 자율주행, 비전 AI 분야의 모델 개발자들이 Cosmos를 활용하여 피지컬 AI 개발을 가속화하고 있습니다.

다음 단계

시작할 준비가 되셨나요?

NVIDIA API 카탈로그에서 월드 파운데이션 모델을 시험해보고, Cosmos를 활용하여 직접 월드 모델을 구축해보세요.

WFM 사후 학습

Cosmos WFM은 사후 학습을 위해 특별히 설계되었으며, 피지컬 AI 개발을 가속화하는 강력한 피지컬 AI 다운스트림 월드 모델을 활용합니다.

월드 모델을 위한 비디오 데이터 큐레이션

NVIDIA NeMo 큐레이터를 기반으로 하고 NVIDIA 데이터센터 GPU에 최적화된 가속화된 데이터 처리 및 큐레이션 파이프라인을 활용할 수 있습니다.

리소스

Cosmos 개발자 최신 정보

자주 묻는 질문

문서와 함께 시작해 보세요. Cosmos WFM은 Hugging Face에서 공개되어 있으며, 추론 및 사후 학습 스크립트는 GitHub에서 제공됩니다. 또한 개발자는 GitHub 및 Hugging Face의  /NVIDIA/cosmos-tokenizer에서 Cosmos 토크나이저를 사용할 수 있습니다.

Cosmos WFM은 NVIDIA 오픈 모델 라이선스를 통해 모든 사람이 사용할 수 있습니다.

PyTorch 스크립트는 사후 훈련을 위해 모든 Cosmos 모델에 공개적으로 사용할 수 있습니다. 사후 훈련 관련 단계별 가이드는 이 문서를 읽어보세요.

예, Cosmos를 활용하여 선호하는 파운데이션 모델 또는 모델 아키텍처를 기반으로 처음부터 구축할 수 있습니다. NeMo Curator를 사용하여 먼저 비디오 데이터 전처리 작업을 합니다. 그런 다음 Cosmos 토크나이저를 사용하여 데이터를 압축하고 디코딩합니다. 데이터 처리가 완료되면 NVIDIA NeMo를 사용하여 모델을 학습시키거나 파인튜닝할 수 있습니다.

NVIDIA NIM™ 마이크로서비스를 사용하면 클라우드, 데이터센터, 워크스테이션 등 다양한 환경에서 애플리케이션에 쉽게 통합할 수 있습니다.

NVIDIA DGX Cloud를 활용해 AI 모델을 훈련하고 어디에서나 대규모 배포할 수도 있습니다.

세 가지 모두 서로 다른 역할을 가진 WFM입니다.

  • Cosmos Predict는 텍스트, 이미지 또는 비디오 프롬프트에서 다양한 비디오 장면을 생성하며, 로봇 또는 자율주행 자동차와 같은 주제에 대한 파인튜닝에 이상적입니다.
  • Cosmos Transfer는 NVIDIA Omniverse와 같은 시뮬레이터에서 생성된 물리 기반 영상에 조명 및 환경을 변경하는 멀티 제어 스타일 전환을 적용합니다.
  • Cosmos Reason은 영상 및 이미지 입력을 기반으로 추론하여 텍스트 질의에 답변합니다.

Cosmos Reason은 Cosmos Predict를 위한 하나의 시작 영상에서 새롭고 다양한 텍스트 프롬프트를 생성하거나 Predict 및 Transfer가 생성한 합성 데이터를 비평할 수 있습니다.

Omniverse는 다양한 생성형 API, SDK, NVIDIA RTX 렌더링 기술을 활용하여 실제 작업에 대한 사실적인 3D 시뮬레이션을 생성합니다.

개발자는 Omniverse 시뮬레이션을 Cosmos Transfer 모델에 입력하고, 제어 가능한 포토리얼 합성 데이터를 생성할 수 있습니다.

Omniverse는 훈련 전과 후의 시뮬레이션 환경을 제공하고, Cosmos는 영상 데이터를 생성하고 피지컬 AI 모델을 훈련할 수 있는 파운데이션 모델을 제공합니다.

NVIDIA Omniverse에 대해 자세히 알아보세요.