Последний экзамен человечества
Недавно вышел новый бенчмарк HLE (Humanity's Last Exam) (https://lastexam.ai/), на котором лучшие ИИ набирают меньше 13%. Собирали всем человечеством: открытая форма, куда каждый мог прислать свой вопрос. Если топовые модели не могли ответить на вопрос, то его отправляли ЭКСПЕРТАМ, которые отсеивали некорректные вопросы.
В итоге отобрали 6000 вопросов: половину опубликовали, половину спрятали в приватный датасет. За лучшие вопросы заплатили: $5000 за топ-50 и $500 за следующие 500.
👁 Зачем?
- реальная(??) проверка уровня LLM
- проверяли уверенность ИИ в своих ответах (слишком самоуверенно)
- новые бенчмарки важны для оценки прогресса ИИ
🔫 Лидеры:
1. o3-mini (high) - 13%
2. o3-mini (medium) - 10.5%
3. deepseek-R1 - 9.4%
Авторы HLE ожидают, что к концу года новые модели смогут выдавать более 50% на таком бенчмарке.
Сам факт появления такого "экзамена" показывает, насколько мощно развился ИИ.
🎓 Пример задачи:
У колибри, относящихся к отряду Apodiformes, есть уникальная двусторонняя парная овальная кость - сесамоид, встроенный в каудолатеральную часть расширенного крестообразного апоневроза вставки m. depressor caudae. Сколько парных сухожилий поддерживается этой сесамовидной костью? Ответьте цифрой.
Раскрываю секреты ИИ: https://t.me/optifyhub