Gemini 2.5 Pro превосходит DeepSeek и Grok по производительности в задачах программирования

Google выпустила новую предварительную версию своей модели искусственного интеллекта Gemini 2.5 Pro, которая, по утверждениям компании, значительно улучшена по сравнению с предыдущими версиями и превосходит таких конкурентов, как DeepSeek R1 и Grok 3 Beta. Модель теперь демонстрирует лучшие результаты в программировании, рассуждениях, науке и математике.

06.06.2025 1249 0 1

печатать

Gemini 2.5 Pro превосходит DeepSeek и Grok по производительности в задачах программирования

Бенчмарк	Gemini 2.5 Pro Preview 06-05 Thinking	OpenAI o3	OpenAI o4-mini	Claude Opus 4 (32k thinking)	Grok 3 Beta (Extended thinking)	DeepSeek R1 (05-28)
Цена за ввод	$1.25 за миллион токенов	$10.00	$1.10	$15.00	$3.00	$0.55
Цена за вывод	$10.00 за миллион токенов	$40.00	$4.40	$75.00	$15.00	$2.19
Мышление и знания (Humanity's Last Exam, без инструментов)	21.6%	20.3%	14.3%	10.7%	—	14.0%*
Наука (GQPA diamond)	86.4%	83.3%	81.4%	79.6%	80.2%	81.0%
Математика (AIME 2025)	88.0%	88.9%	92.7%	75.5%	77.3%	87.5%
Генерация кода (LiveCodeBench, multiple attempts)	69.0%	72.0%	75.8%	51.1%	—	70.5%
Редактирование кода (Aider Polyglot, diff-фенсированное)	82.2%	79.6%	72.0%	72.0%	53.3%	71.6%
Кодирование агентов (SWE-bench Verified, multiple attempts)	59.6%	49.4%	68.1%	72.5%	—	57.6%
Фактичность (SimpleQA)	54.0%	48.6%	19.3%	—	43.6%	27.8%
Фактичность (FACTS Grounding)	87.8%	69.6%	62.1%	77.7%	74.8%	—
Визуальные рассуждения (MMMU)	82.0%	82.9%	81.6%	76.5%	76.0%	78.0%
Понимание изображений (Vibe-Eval (Reka))	67.2%	—	—	—	—	—
Понимание видео (VideoMMMU)	83.6%	—	—	—	—	—
Длинный контекст (MRCR v2 (8-needle))	58.0%	57.1%	36.3%	34.0%	—	—
Многоязыковая производительность (Global MMU (Lite))	89.2%	—	—	—	—	—

Методология:

Все бенчмарки Gemini 2.5 Pro использовали настройки «single attempt» с мажоритарным голосованием, кроме тех случаев, когда указано «multiple attempts».
Для тестов на кодирование и редактирование кода использовались точные настройки и измерения, и результаты были усреднены.

По данным Google, Gemini 2.5 Pro улучшилась на 24 пункта в LMArena и на 35 пунктов в WebDevArena, став лидером в обеих таблицах. Эта версия модели, получившая название Gemini 2.5 Pro Preview 06-05 Thinking, уже доступна для тестирования на платформах Google AI Studio и Vertex AI, а стабильная версия, как ожидается, будет выпущена в ближайшие недели.

Согласно обновленным меткам, новая версия стала более креативной, улучшив стиль и структуру своих ответов, и оказалась быстрее и точнее в ключевых бенчмарках, таких как AIDER Polyglot и GPQA. В дополнение к этому, улучшенная версия обеспечивает более отформатированные и структурированные ответы, что делает её более удобной для разработчиков.

Цена на использование Gemini 2.5 Pro составляет $1,25 за миллион токенов на вход и $10 за выход, что делает её доступной для предприятий, желающих использовать модель для корпоративных решений.

Разработчики уже активно тестируют новую модель, а Google продолжает интегрировать её в свои сервисы, укрепляя позиции компании в конкурентной гонке с другими игроками на рынке языковых моделей, такими как OpenAI и Anthropic.

Источник: https://venturebeat.com/ai/google-claims-gemini-2-5-pro-preview-beats-deepseek-r1-and-grok-3-beta-in...

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

06.06.2025 1249 0 1