Менее двух месяцев назад китайская компания High-Flyer Capital Management представила предыдущую версию модели DeepSeek R1-0528, быстро завоевавшую популярность среди исследователей и предприятий благодаря доступной цене обучения и выдающейся способности решать аналитические задачи. Теперь немецкие специалисты подняли планку еще выше, предложив решение, основанное на концепции Asssembly of Experts (AoE) — методики интеграции нескольких готовых моделей в единую систему.
Новая модель DeepSeek-TNG R1T2 Chimera демонстрирует значительное улучшение показателей. Она способна выдавать ответы, эквивалентные своим предшественникам по качеству, затрачивая при этом почти вдвое меньше вычислительных ресурсов. В частности, новая версия справляется с задачей примерно в два раза быстрее, чем оригинальный DeepSeek R1-0528, выпущенный ранее в этом году китайской компанией.
Преимущества DeepSeek-TNG R1T2 Chimera заключаются в следующем:
- Скорость: Производительность увеличилась в 2–2,5 раза относительно предыдущих версий, позволяя обрабатывать запросы быстрее и эффективнее.
- Эффективность: Модель использует примерно на 60% меньше токенов для выдачи одного ответа, уменьшая потребление памяти и вычислительных ресурсов.
- Совместимость: Модель доступна под свободной лицензией MIT License, что гарантирует полную свободу адаптации и внедрения в корпоративные системы.
- Модульность: Концепция сборки из разных компонентов (Assembly of Experts) открывает путь к созданию специализированных решений путем комбинирования лучших характеристик различных моделей.
Внутри структуры DeepSeek-TNG R1T2 Chimera объединены лучшие качества трех популярных моделей семейства DeepSeek: R1-0528, R1 и V3-0324. Используя методы выбора и комбинации весов и внутренних параметров каждой из них, разработчики добились существенного повышения эффективности, сохранив высокую точность выводов.
Разработчики подчеркнули, что модель оптимизирована именно для прикладных задач, требующих четких и кратких ответов, таких как математика, программирование или обработка запросов. Для задач, предполагающих интеграцию внешних сервисов или выполнение сложных команд, R1T2 пока не идеален, но последующие улучшения обещают справиться с этим недостатком.
Новая версия DeepSeek-TNG R1T2 Chimera официально опубликована на платформе Hugging Face, что делает ее доступной для широких масс разработчиков и компаний, желающих внедрить мощные решения в области обработки естественного языка с минимальными издержками.
Источник: https://venturebeat.com/ai/holy-smokes-a-new-200-faster-deepseek-r1-0528-variant-appears-from-german...Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!