Как создать экзамен, который не пройдёт ИИ: Последний экзамен человечества
Узнайте, как разработать тест для проверки ИИ, который современные модели не проходят. Области знаний: математика, физика, древние языки. Методология Humanity's Last Exam с 2500 вопросов и принципами создания бенчмарка ИИ.
Как создать экзамен, который современные ИИ-системы не могут пройти? Какие области знаний и подходы необходимы для разработки ‘последнего экзамена для человечества’, который проверяет глубокие экспертные знания?
Создать экзамен, который современные ИИ-системы не могут пройти, проще простого, если привлекать экспертов по сотням дисциплин: математика, физика, древние языки, биология, история и лингвистика. “Последний экзамен человечества” (Humanity’s Last Exam) — это реальный бенчмарк ИИ с 2500 вопросов, где модели вроде GPT-4o или Claude 3.5 набирают меньше 10%, потому что требуются глубокие экспертные знания, а не шаблонный поиск. Ключ — в строгой методологии: вопросы пишут ученые, тестируют на ИИ, и все, где машина угадывает, выкидывают.
Содержание
- Понятие “последнего экзамена человечества”
- Принципы создания экзаменов для ИИ
- Области знаний для экспертного тестирования
- Методология разработки вопросов
- Примеры: Humanity’s Last Exam
- Практическое применение и будущее
- Источники
- Заключение
Понятие “последнего экзамена человечества”
Что такое “последний экзамен человечества”? Это не просто тест, а глобальный бенчмарк ИИ, который должен показать, где заканчивается машинное “понимание” и начинается настоящее человеческое мышление. Идея родилась из разочарования в старых тестах вроде Тьюринга — он проверял только имитацию разговора, а не глубину. Современные ИИ глотают интернет-данные и выдают правдоподобные ответы, но спотыкаются на задачах, требующих интуиции эксперта или комбинации редких знаний.
Проект Humanity’s Last Exam превратил эту идею в реальность: 2500 вопросов, собранных от ученых мира. Почему “последний”? Потому что он эволюционирует — как только ИИ осваивает часть, ее убирают. А вы думали, GPT-4o уже все знает? На деле даже топ-модели набирают 5-9% точности. Это как тест Тьюринга для ИИ наоборот: не “пройди за человека”, а “покажи, что ты еще не человек”.
Принципы создания экзаменов для ИИ
Чтобы экзамен для ИИ не прошел ни один современный LLM, следуйте простым, но жестким правилам. Во-первых, вопросы должны быть закрытыми — да/нет, множественный выбор или короткий ответ, чтобы избежать расплывчатости. Во-вторых, они не гуглятся: никаких фактов из Википедии, только синтез знаний или визуальное понимание.
Третий принцип — экспертная валидация. Пишет аспирант? Проверяет профессор. ИИ угадал? В топку. Профессор Тунг Нгуен из Техасского университета в статье на Overclockers подчеркивает: машины мастера по паттернам, а не по пониманию. Еще один трюк — мультимодальность: 14% вопросов сочетают текст и изображения, где ИИ лажает с интерпретацией диаграмм.
Но и это не все. Держите приватный пул вопросов для проверки на переобучение — иначе модели просто запомнят публичный датасет. В итоге тест для проверки ИИ становится живым организмом, который опережает эволюцию моделей.
Области знаний для экспертного тестирования
Какие области знаний бьют ИИ по больному? Проект охватывает более 100 дисциплин, но вот топ для вашего “последнего экзамена человечества”. Математика: не школьные задачки, а доказательства теорем или креативные применения в нишевых областях вроде алгебраической топологии. Физика — интерпретация экспериментов с редкими частицами или квантовые парадоксы, где нужен физический инсайт.
Древние языки — чтение клинописи или реконструкция утраченных текстов, где контекст важнее словаря. Биология: анализ мутаций в редких видах или этические дилеммы в генетике. История и лингвистика — нюансы культурных артефактов, которые ИИ не “чувствует”. Как пишут в препринте на arXiv, 24% вопросов — множественный выбор по таким темам, чтобы исключить угадывание.
А гуманитарка? Философия науки или этика ИИ — там ИИ плетет кружева, но без души. Выберите 10-20 ниш, где эксперты годами копаются, и ИИ ваш.
Методология разработки вопросов
Разработка вопросов — это конвейер, а не импровизация. Шаг 1: собираете экспертов глобально через платформы вроде Humanity’s Last Exam. Каждый пишет 5-10 вопросов по своей теме. Шаг 2: первичная модерация аспирантами — однозначны ли, проверяемы ли?
Дальше — тест на ИИ. Бежите через топ-модели (o1, Gemini 2.0). Правильно >50%? Отбрасываем. Остается ~10-20% от исходного пула. Затем вторичная проверка: организаторы + ведущие спецы. В исследовании на arXiv описано: три уровня ревью, плюс метки на мультимодальность.
Хитрость — разнообразие: 60% открытые, но с четким ответом; 40% с картинками. И приватный сэт для финальной валидации. Сколько времени? Месяцы, но результат — бенчмарк ИИ, который держит планку. Попробуйте сами: начните с 100 вопросов по вашей экспертизе.
Примеры: Humanity’s Last Exam
Лучший пример — сам Humanity’s Last Exam. Команда Center for AI Safety и Scale AI собрала 2500 вопросов. Результаты? GPT-4o — 8.8%, Claude 3.5 Sonnet — 9.1%, Gemini 1.5 Pro — 6.5%. Ни одна модель не дотянула до 10%.
Конкретно: вопрос по физике с диаграммой траектории частиц — ИИ путает нюансы. Или лингвистика: интерпретация шумерского текста с контекстом. В статье Overclockers цитируют: ИИ видит паттерны, люди — суть. Проект открыт: скачайте датасет, добавьте свои вопросы. Это живой тест Тьюринга для ИИ 2.0.
Другие аналоги? ARC-AGI-2 или Big-Bench Hard, но они уже частично пройдены. Humanity’s Last Exam — пик на 2026 год.
Практическое применение и будущее
Зачем это нужно? Бизнесу — для найма: тест “человек vs ИИ” в HR. Исследователям — калибровка моделей. Правительствам — контроль AGI. Создать тест ИИ для своей компании? Начните с ниши: если вы в медицине, соберите вопросы по редким случаям.
Будущее? Экзамен эволюционирует ежегодно, добавляя VR-задачи или реал-тайм эксперименты. К 2030-му, возможно, интегрируют нейроинтерфейсы. Но пока — это инструмент, чтобы напомнить: ИИ силен в ширине, слаб в глубине. Готовы создать свой “последний экзамен человечества”?
Источники
- Uchenye razrabotali test dlya II Humanity’s Last Exam — Статья о методологии и принципах создания экзамена для ИИ: https://overclockers.ru/blog/This_is_the_way/show/250688/Uchenye-razrabotali-test-dlya-II-Humanity-s-Last-Exam-dlya-sopostavleniya-s-chelovecheskimi-vozmozhnostyami
- Humanity’s Last Exam — Официальный сайт проекта с бенчмарком ИИ и датасетом вопросов: https://agi.safe.ai/
- Humanity’s Last Exam (arXiv препринт) — Научная работа по разработке и валидации 2500 вопросов для тестирования ИИ: https://arxiv.org/pdf/2501.14249.pdf
Заключение
“Последний экзамен человечества” — это не фантазия, а рабочий инструмент для проверки пределов ИИ через экспертные знания в математике, физике, древних языках и других нишах. Соберите вопросы по строгой методологии, протестируйте на моделях и валидируйте — и у вас будет непроходимый бенчмарк ИИ. Главный takeaway: машины копируют паттерны, люди создают понимание. Начните с малого, масштабируйте глобально — и вы на шаг впереди AGI.
«Последний экзамен человечества» (Humanity’s Last Exam) — это набор из 2500 вопросов, охватывающих математику, физику, древние языки, биологию, историю и лингвистику. Каждый вопрос требует глубоких знаний, которые нельзя получить простым поиском в интернете. Процесс создания начинается с набора вопросов от экспертов различных областей, затем они тестируются на современных ИИ, и все вопросы, на которые модели отвечают правильно, удаляются. В итоге остаются только те, где ИИ терпит неудачу, что позволяет оценить пределы машинного понимания. Профессор Тунг Нгуен из Техасского университета подчеркивает разницу между паттерн-обнаружением ИИ и настоящим человеческим пониманием.
Создание экзамена, который современные ИИ-системы не могут пройти, требует сбора вопросов от экспертов по более чем 100 дисциплинам для широкого охвата знаний. Вопросы должны быть закрытыми с однозначным ответом, проверяемым экспертами, и защищенными от шаблонного поиска. Важны мультимодальные элементы (изображения, диаграммы) для проверки визуального понимания. Необходим приватный набор тестовых вопросов для оценки переобучения моделей. Такой подход реализован в Humanity’s Last Exam с 2500 вопросами, где даже топ-модели показывают низкую точность, подтверждая непроходимость для ИИ.
Экзамен, неподдающийся современным ИИ, создается по ключевым принципам: 2500 вопросов по более 100 областям (математика, гуманитарные и естественные науки). Каждый вопрос — закрытый, однозначный, не поддающийся интернет-поиску, проходит многоуровневое рецензирование: аспиранты, организаторы, ведущие эксперты. Вопросы от ученых мира, проверяются на LLM: правильный ответ ИИ — основание для отклонения. 14% вопросов мультимодальные (текст + изображение), 24% — множественный выбор, что усложняет угадывание и повышает надежность бенчмарка.
