Старые тесты AI больше не работают — и это официальная позиция, потому что Google DeepMind представила новую систему оценки интеллекта нейросетей, которая должна заменить устаревшие подходы вроде теста Тьюринга и стандартных бенчмарков.
Проблема в том, что современные модели уже переросли классические тесты: они показывают высокие результаты, но это не значит, что они действительно понимают или мыслят на уровне человека. Поэтому рынок AI сейчас находится в странной ситуации — модели становятся мощнее, но объективно измерить их интеллект становится все сложнее.
Разберем, что предложил DeepMind и почему это может стать новой основой для оценки искусственного интеллекта.
Почему старые тесты больше не работают
Ключевая проблема — современные нейросети научились обходить тесты, показывая высокие результаты без реального понимания, и это ломает саму идею оценки.
Тест Тьюринга
Раньше считался стандартом.
Сейчас:
- слишком простой
- легко обойти
Бенчмарки
Проблема:
- модели обучаются на тех же данных
- результаты завышены
Новая система оценки от DeepMind
Еще больше полезного в Telegram канале
Разбираю связки, кейсы и инструменты без воды
Перейти РІ TelegramDeepMind предлагает оценивать AI не по одному показателю, а по целому набору когнитивных способностей — фактически, как человека.
10 ключевых параметров
Система включает:
- восприятие
- генерацию
- внимание
- обучение
- память
- логическое мышление
- метапознание
- исполнительные функции
- решение задач
- социальный интеллект
Это уже не тест — это профиль интеллекта.
Как это будут измерять
DeepMind предлагает трехэтапную систему оценки, которая должна дать более объективную картину возможностей AI.
Шаг 1 — тестирование
Проверка каждой способности отдельно.
Шаг 2 — сравнение с человеком
Формируется человеческий уровень.
Шаг 3 — профиль интеллекта
Показывает:
- сильные стороны
- слабые стороны
Что это меняет
Главное изменение — переход от оценки в целом к детальному анализу, потому что AI уже невозможно описать одной метрикой.
Для разработчиков
- понятно, где улучшать модель
Для бизнеса
- понятно, где использовать AI
Для рынка
- появляется новый стандарт
Почему это важно для будущего AI
Это шаг к AGI, потому что если система сможет обгонять человека по всем параметрам, это будет означать качественный скачок, а не просто улучшение отдельных навыков.
Новый уровень
AI оценивается как:
- интеллект
- а не инструмент
Новая гонка
Компании будут соревноваться:
- по когнитивным возможностям
Главный вывод
DeepMind фактически меняет подход к AI, потому что теперь важно не просто сделать модель лучше, а понять, насколько она действительно приближается к человеческому интеллекту.
И это делает гонку AI более прозрачной — и более жесткой.
FAQ
Почему старые тесты не работают?
Потому что модели научились их обходить.
Что предлагает DeepMind?
Оценку по 10 параметрам интеллекта.
Это приближает AGI?
Да, потому что дает критерии оценки.