728x90 반응형 인간 비디오 학습1 DreamDojo 심층 분석: 44,000시간 인간 비디오로 구축한 범용 로봇 월드 모델의 모든 것 Key Takeaways대규모 인간 비디오 활용: 44,000시간에 달하는 1인칭 인간 비디오 데이터셋(DreamDojo-HV)을 기반으로, 로봇이 현실 세계의 물리 법칙과 상호작용을 학습합니다.연속 잠재 액션 도입: 기존의 이산적 제어 방식과 달리, self-supervised 방식으로 추출된 '연속 잠재 액션'을 통해 미세하고 부드러운 로봇 제어를 가능하게 합니다.실시간 예측 성능: 증류(Distillation) 파이프라인을 통해 모델을 경량화하여 640x480 해상도에서 10.81 FPS의 실시간 예측 성능을 달성, 라이브 원격 조작에 적용할 수 있습니다.뛰어난 OOD 일반화: 학습 데이터에 없던 새로운 객체, 환경, 기술에 대해서도 높은 제로샷(Zero-shot) 일반화 성능을 보여 범용 로봇의 .. 2026. 2. 9. 이전 1 다음 반응형