728x90 반응형 다중 모드1 AI의 진짜 지능을 측정하다: '인류의 마지막 시험(HLE)' 심층 분석 핵심 요약 (Key Takeaways)HLE는 새로운 AI 벤치마크입니다: 기존 벤치마크(MMLU 등)가 AI의 급속한 발전으로 변별력을 잃자, AI의 진정한 추론 능력과 인간 전문가 수준의 지식을 평가하기 위해 개발되었습니다.대학원 수준의 고난도 문제입니다: 수학, 생물학, 컴퓨터 과학 등 100개 이상의 분야에서 2,500~3,000개의 대학원 수준 문제를 통해 AI의 다단계 추론과 깊이 있는 이해를 측정합니다.데이터 오염 방지를 최우선으로 합니다: 인터넷 검색으로 답을 찾기 어렵게 설계되었으며, 비공개 문제 세트를 유지하여 벤치마크 과적합을 방지합니다.현재 AI 모델은 인간 전문가에 크게 미치지 못합니다: 가장 뛰어난 AI 모델도 40점 미만의 낮은 점수를 기록했으며, 인간 전문가의 약 90% 정답.. 2026. 1. 29. 이전 1 다음 반응형