Бенчмарк |
Gemini 2.5 Pro Preview 06-05 Thinking |
OpenAI o3 |
OpenAI o4-mini |
Claude Opus 4 (32k thinking) |
Grok 3 Beta (Extended thinking) |
DeepSeek R1 (05-28) |
Цена за ввод |
$1.25 за миллион токенов |
$10.00 |
$1.10 |
$15.00 |
$3.00 |
$0.55 |
Цена за вывод |
$10.00 за миллион токенов |
$40.00 |
$4.40 |
$75.00 |
$15.00 |
$2.19 |
Мышление и знания (Humanity's Last Exam, без инструментов) |
21.6% |
20.3% |
14.3% |
10.7% |
— |
14.0%* |
Наука (GQPA diamond) |
86.4% |
83.3% |
81.4% |
79.6% |
80.2% |
81.0% |
Математика (AIME 2025) |
88.0% |
88.9% |
92.7% |
75.5% |
77.3% |
87.5% |
Генерация кода (LiveCodeBench, multiple attempts) |
69.0% |
72.0% |
75.8% |
51.1% |
— |
70.5% |
Редактирование кода (Aider Polyglot, diff-фенсированное) |
82.2% |
79.6% |
72.0% |
72.0% |
53.3% |
71.6% |
Кодирование агентов (SWE-bench Verified, multiple attempts) |
59.6% |
49.4% |
68.1% |
72.5% |
— |
57.6% |
Фактичность (SimpleQA) |
54.0% |
48.6% |
19.3% |
— |
43.6% |
27.8% |
Фактичность (FACTS Grounding) |
87.8% |
69.6% |
62.1% |
77.7% |
74.8% |
— |
Визуальные рассуждения (MMMU) |
82.0% |
82.9% |
81.6% |
76.5% |
76.0% |
78.0% |
Понимание изображений (Vibe-Eval (Reka)) |
67.2% |
— |
— |
— |
— |
— |
Понимание видео (VideoMMMU) |
83.6% |
— |
— |
— |
— |
— |
Длинный контекст (MRCR v2 (8-needle)) |
58.0% |
57.1% |
36.3% |
34.0% |
— |
— |
Многоязыковая производительность (Global MMU (Lite)) |
89.2% |
— |
— |
— |
— |
— |
Методология:
- Все бенчмарки Gemini 2.5 Pro использовали настройки «single attempt» с мажоритарным голосованием, кроме тех случаев, когда указано «multiple attempts».
- Для тестов на кодирование и редактирование кода использовались точные настройки и измерения, и результаты были усреднены.
По данным Google, Gemini 2.5 Pro улучшилась на 24 пункта в LMArena и на 35 пунктов в WebDevArena, став лидером в обеих таблицах. Эта версия модели, получившая название Gemini 2.5 Pro Preview 06-05 Thinking, уже доступна для тестирования на платформах Google AI Studio и Vertex AI, а стабильная версия, как ожидается, будет выпущена в ближайшие недели.
Согласно обновленным меткам, новая версия стала более креативной, улучшив стиль и структуру своих ответов, и оказалась быстрее и точнее в ключевых бенчмарках, таких как AIDER Polyglot и GPQA. В дополнение к этому, улучшенная версия обеспечивает более отформатированные и структурированные ответы, что делает её более удобной для разработчиков.
Цена на использование Gemini 2.5 Pro составляет $1,25 за миллион токенов на вход и $10 за выход, что делает её доступной для предприятий, желающих использовать модель для корпоративных решений.
Разработчики уже активно тестируют новую модель, а Google продолжает интегрировать её в свои сервисы, укрепляя позиции компании в конкурентной гонке с другими игроками на рынке языковых моделей, такими как OpenAI и Anthropic.
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!