본문 바로가기
728x90
반응형

멀티모달 AI2

마이크로소프트 Phi-4 Vision: 작지만 강력한 AI 효율성 혁명 Phi-4 Vision: 마이크로소프트 AI 혁신의 핵심 요약차세대 멀티모달 추론 모델: 마이크로소프트의 Phi-4-reasoning-vision-15B는 150억 파라미터를 가진 소형 개방형 모델로, 이미지와 텍스트를 동시에 이해하고 추론하는 능력이 특징입니다.혁신적인 기술 설계: 미드-퓨전(Mid-fusion) 구조, 동적 해상도(Dynamic resolution), 조건부 연산(Conditional computation) 아키텍처를 통해 성능과 효율성의 균형을 이룹니다.고효율 학습 전략: 무조건적인 데이터 양 증대 대신 고품질 데이터 중심 학습과 합성-실제 데이터 조합으로 추론 능력을 극대화했습니다.뛰어난 멀티모달 성능: 문서 해석, 복잡한 수학 문제 해결, 과학 분야 추론 등 다양한 고난도 작업을.. 2026. 4. 10.
Gemini 3.1 Flash Live: 실시간 음성 AI의 혁명, 2.5배 빠른 응답 Gemini 3.1 Flash Live 핵심 요약2026년 3월 26일 공개된 Gemini 3.1 Flash Live는 실시간, 자연스럽고 신뢰할 수 있는 오디오/음성 AI 상호작용의 새로운 기준을 제시합니다.이전 모델(2.5 Flash) 대비 첫 응답 속도가 2.5배 빨라졌으며, 대화 맥락 유지 능력은 두 배 향상되어 낮은 지연 시간의 대화를 가능하게 합니다.음성 톤과 음향적 뉘앙스를 섬세하게 인식하여 사용자의 감정(좌절, 혼란 등)에 동적으로 반응하며, 대화의 질을 높입니다.텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 종합적으로 이해하는 강력한 멀티모달 능력을 내재하고 있습니다.ComplexFuncBench_Audio 벤치마크에서 90.8%의 높은 점수를 기록하며 향상된 정밀도와 신뢰성을 .. 2026. 4. 1.
반응형