Kimi K2 Thinking: китайская открытая модель, обогнавшая GPT-5 и Claude Sonnet 4.5 в тестах рассуждений и кодирования

Китайская компания Moonshot AI представила модель Kimi K2 Thinking — первую открытую ИИ-систему, которая по ряду ключевых бенчмарков обошла GPT-5 от OpenAI и Claude Sonnet 4.5 от Anthropic.

10.11.2025 934 0 1

печатать

Kimi K2 Thinking: китайская открытая модель, обогнавшая GPT-5 и Claude Sonnet 4.5 в тестах рассуждений и кодирования

Модель с открытым исходным кодом уже доступна на Hugging Face и способна выполнять сложные задачи рассуждения, кодирования и агентного анализа, демонстрируя исторический прорыв для открытых систем искусственного интеллекта.

Открытая модель, превзошедшая закрытые флагманы

Kimi K2 Thinking показала выдающиеся результаты в тестах рассуждений и агентных инструментов:

44,9 % в экзамене HLE (Humanity’s Last Exam) — мировой максимум;
60,2 % в BrowseComp — агентном тесте рассуждений и веб-поиска (против 54,9 % у GPT-5 и 24,1 % у Claude 4.5);
71,3 % на SWE-Bench Verified и 83,1 % на LiveCodeBench v6 — рекордные показатели в кодинге;
56,3 % на Seal-0 — эталоне поиска реальных данных.

K2 Thinking построена по архитектуре Mixture-of-Experts (MoE) с общим числом параметров около 1 трлн, из которых 32 млрд активируются на один запрос. Модель поддерживает 256 тыс. токенов контекста, может выполнять до 300 последовательных вызовов инструментов без вмешательства человека и обладает собственным трассируемым «мышлением» через поле reasoning_content.

Лицензия и открытый доступ

Moonshot выпустила модель под модифицированной MIT-лицензией, разрешающей полное коммерческое использование.
Единственное условие: если продукт на базе K2 обслуживает более 100 млн пользователей или приносит свыше 20 млн $ в месяц, разработчик обязан указать бренд Kimi K2 в интерфейсе.

Доступ:

platform.moonshot.ai и kimi.com — чат и API;
Hugging Face — веса и код модели.

Сравнение с предыдущими рекордсменами

Всего две недели назад MiniMax-M2 считалась лидером среди открытых LLM.
Однако Kimi K2 Thinking обошла её с большим запасом:

BrowseComp — 60,2 % против 44,0 % у M2,
SWE-Bench Verified — 71,3 % против 69,4 %,
при этом обеспечивая двукратное ускорение вывода благодаря INT4 QAT-квантованию и активации большего числа экспертов.

Таким образом, впервые открытая модель вышла за рамки паритета с GPT-5, став новым ориентиром производительности.

Экономика и производительность

Несмотря на масштаб, K2 Thinking остаётся крайне доступной:

$ 0,15 / 1 млн токенов (кэш-хит);
$ 0,60 / 1 млн токенов (промах кэша);
$ 2,50 / 1 млн токенов вывода.

Для сравнения: GPT-5 стоит около $ 10 за миллион токенов вывода.
Таким образом, K2 в 4–5 раз дешевле MiniMax-M2 и в 10–20 раз экономичнее GPT-5.

Системный сдвиг в индустрии

Появление K2 Thinking совпадает с растущими сомнениями вокруг финансовой устойчивости OpenAI и других западных гигантов.
Недавние заявления финансового директора OpenAI о «возможной необходимости государственной поддержки» расходов компании вызвали бурные дискуссии о перегретости рынка ИИ.

На этом фоне китайские стартапы — Moonshot AI, MiniMax и Qwen — демонстрируют, что высококлассные модели могут быть не только мощными, но и доступными, подрывая монополию закрытых систем.

Что это значит

Kimi K2 Thinking — не просто новый лидер рейтингов.
Это символ сдвига парадигмы: лучшие способности рассуждения и кодирования теперь демонстрирует не проприетарная модель с миллиардными инвестициями, а открытая система, доступная каждому разработчику.

«Мы больше не говорим о догоняющих, — отмечают исследователи. — Мы говорим о том, что открытые модели впервые задают темп».

Источник: https://venturebeat.com/ai/moonshots-kimi-k2-thinking-emerges-as-leading-open-source-ai-outperformin...

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

10.11.2025 934 0 1