Современная электроника №4/2025
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ 36 WWW.CTA.RU СОВРЕМЕННАЯ ЭЛЕКТРОНИКА • № 4 / 2025 ях агента. Эта обратная связь может быть бинарной оценкой (хорошо или плохо) или более детализированной. 6. Обучение модели получения воз- награждения. Использование обратной связи от людей для создания модели получения вознаграждения, которая отражает предпочтения экспертов. 7. Обновление политики поведения на основе усвоенной агентом модели вознаграждения. 8. Итеративный процесс: этапы 4–7 повторяются итеративно, при этом ИИ-агент каждый раз совершенству- ет свою политику на основе демон- страций и обратной связи. 9. Процесс RLHF продолжается до тех пор, пока производительность агента не достигнет удовлетворительного уров- ня или пока не будет достигнут зара- нее определённый критерий остановки. Следует отметить, что в варианте RLHF требуются огромные объёмы данных обратной связи, основанные на опыте миллионов людей. В проти- воположность этому подход DeepSeek (R1-Zero) полностью исключает чело- веческую обратную связь. В альтернативном варианте мето- дика DeepSeek (R1-Zero) предлагает коренное отличие в методе обучения ИИ. Компания используют собствен- ный алгоритм Group Relative Policy Optimization – GRPO, который не тре- бует отдельной модели-критика (как в PPO) и оптимизирует модель на основе сравнения группы сгенерированных ответов. При этом исключаются этап Supervised Fine-Tuning – SFT и челове- ческая обратная связь на этапе пост- обучения, присущие RLHF. Вместо того чтобы использовать оценку человека, DeepSeek-R1-Zero обучается с помощью метода Pure Reinforcement Learning – RL, основанному на правильно-ори- ентированных наградах Rule-Based Rewards. Так, например, модель полу- чает награду, которая называется Accuracy Rewards, если она абсолют- но правильно решает математиче- скую задачу. Другую награду Format Rewards модель получает, например, за чётко структурированный вывод. Каждая награда имеет свой вес. Таким образом, регламентируется каждое действие, и модель DeepSeek-R1-Zero «самообучается» без прямого вме- шательства человека, что коренным образом отличается от метода RLHF. Стоит отметить, что полная линейка DeepSeek-R1 не ограничивается толь- ко «чистым RL». Если DeepSeek-R1-Zero представляла собой эксперимент с полным исключением SFT и челове- ческой обратной связи, то финальные последующие модели включали ком- бинированные процессы. Так, модель DeepSeek-R1 включает многоступенчатый процесс обучения: ● этап «холодного старта» с использо- ванием данных (Сold-Start Data) для начальной настройки; ● основной этап RL (как в R1-Zero); ● дополнительная тонкая настройка с использованием данных, сгенери- рованных моделью, и повторный RL для улучшения читаемости и согла- сованности. Подход DeepSeek, который учит ИИ думать самостоятельно, без подсказок от людей, является более автономным и менее трудозатратным, в отличие от трудоёмкого сбора информации, прак- тикуемого OpenAI [59]. Понятие «большие языковые моде- ли» неразрывно связано с так назы- ваемыми нейронными сетями – НС (Neural Networks – NN), представляю- щими собой вычислительные систе- мы, основанные на многослойной базе сети узлов, созданных по аналогии с мозгом человека [60] (рис. 10). Современные языковые модели ана- лизируют миллиарды текстов: от шек- спировских пьес до научных статей и программного кода, обнаруживая скрытые языковые закономерности. Это позволяет им понимать наме- рения человека даже при неточных формулировках, генерировать прак- тически неотличимый от созданного человеком творческий контент, а так- же решать задачи, требующие слож- ного логического мышления. В реальной жизни большие моде- ли (LLM) уже сегодня широко исполь- зуются для автоматизации работы с рутинной документацией, мгновен- ных переводов на большинство язы- ков мира с сохранением контекстных нюансов. Они могут играть роль вир- туальных секретарей, способных под- держать содержательную дискуссию практически на любую тему. Кроме LLM существуют и другие моде- ли, оперирующие с небольшим числом параметров (меньше 15 млрд) и опти- мизированные для выполнения спец- ифических задач с меньшими вычис- лительными затратами. Они получили название «малые языковые модели» (Small Language Models – SLM). Эти моде- ли представляют собой упрощённые версии больших языковых моделей. Мультимодальные и перцептивные модели представляют класс ИИ, который характеризуется способностью инте- Рис. 9. Упрощённая схема обучения модели ИИ с подкреплением на основе обратной связи с человеком – RLHF Рис. 10. Понятие «большие языковые модели» неразрывно связано с так называемыми нейронными сетями [61] 1. Постановка задачи 4. Старая политика 5. Советы тренеров 7. Новая политика 8. Новый цикл 2. Решения экспертов 6. Вознаграж - дение 9. Конечный результат 3. Начало обучения
RkJQdWJsaXNoZXIy MTQ4NjUy