OpenAI Deep Research показал рекордный результат в сложнейшем тесте для нейросетей "Последний экзамен человечества".
Около двух недель назад эксперты представили тест Humanity's Last Exam — "Последний экзамен человечества". Предназначен он для оценки передовых нейросетей. При этом тест очень сложный — далеко не каждый человек сможет просто понять некоторые вопросы на знания и рассуждения, не говоря уже о том, чтобы ответить.
Сначала лидером среди нейросетей стала модель DeepSeek R1 — она ответила правильно на 9,4% вопросов. Но довольно быстро её обогнали модели OpenAI o3-mini (10,5%) и o3-mini-high (13 %). Но последняя, хоть и оказалась мощнее, работает всё таки медленнее.
Но победителем стал ИИ OpenAI Deep Research, который менее, чем за 10 дней нашёл правильные ответы на 26,6% вопросов и заданий.
Правда, у Deep Research есть особенность, отличающая его от других ИИ — нейросеть может искать информацию, а не просто рассуждать, как другие "конкурсанты". И в случае с Humanity's Last Exam эта возможность имеет критическое значение, так как тест проверяет "знания" нейросетей.
Сам же OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, причём гораздо быстрее человека, у которого бы на это ушло бы несколько часов, пишет 3DNews.