Экспертиза / Financial One

Как работает новая китайская нейросеть DeepSeek-R1

11041

Основными принципами работы DeepSeek-R1 поделился инженер машинного обучения Алекс Агбола, автор канала «AI with Alex».

Новая большая языковая модель DeepSeek-R1 вызвала бурю в мире технологий и стала значительным прорывом в сообществе исследователей искусственного интеллекта. Команда исследователей ИИ из Китая выпустила ее в прошлое воскресенье, когда TikTok в США был заблокирован на 12 часов.

Как показывают результаты тестов производительности, DeepSeek-R1 работает на том же уровне, что и модель o1 от OpenAI, при решении задач из таких областей, как математика, кодирование и научные рассуждения.

Как работает DeepSeek-R1?

Метод подсказок по цепочке рассуждений (Chain of Thought) – это простая, но эффективная техника. Ее суть заключается в том, чтобы попросить модель объяснять свои рассуждения шаг за шагом, как если бы она «думала вслух».

Вместо того чтобы просто попросить модель предоставить ответ (например, на математическую задачу), в запрос добавляется инструкция, требующая от модели пошагово объяснить, как она пришла к своему ответу. Например: «Объясни, как ты решаешь эту задачу, шаг за шагом». Если модель допустит ошибку, исследователь сможет точно определить, где именно она ошиблась, и подскажет модели, как избежать этой ошибки в будущем.

Еще один способ машинного обучения – обучение с подкреплением (Reinforcement learning). Способ, которым DeepSeek использует обучение с подкреплением, немного отличается от того, как обучается большинство моделей ИИ. Процесс похож на то, как ребенок учится ходить. Если вы когда-нибудь видели, как ребенок спотыкается, держась за предметы, пытаясь понять, как двигаться, вы знаете, что так он учится, как использовать свое тело, чтобы не упасть.

Таким же образом обучение с подкреплением позволяет исследователям обучать модель, оптимизируя ее политику – то есть поведение модели – для получения максимизации вознаграждения. По мере того как модель исследует окружающую среду, она узнает, какая политика приносит наибольшее вознаграждение. Например, у уравнения может быть два или три способа решения, но один из них гораздо короче и эффективнее. Именно такой способ подразумевает самую высокую награду.

С помощью обучения с подкреплением роботы учатся ходить, а самоуправляемые автомобили Tesla – ориентироваться на улицах. DeepSeek-R1 улучшает свою способность отвечать на вопросы с течением времени благодаря обучению с подкреплением. Вместо того чтобы говорить модели, каким должен быть правильный ответ, исследователи позволяют ей самой догадаться, измеряя при этом точность.

Графики производительности показывают, что, в то время как результаты модели o1 от OpenAI выглядят статично, DeepSeek-R1 в итоге превосходит o1 и, если продолжать процесс обучения, может достичь точности, близкой к 90% или даже 100%.

В обучении с подкреплением исследователи не могут точно сказать модели, как изменить свою политику. Поэтому они комбинируют его с методом цепочки рассуждений, чтобы побудить модель к самоанализу и оценке собственной работы, что в конечном итоге приводит к улучшению результатов.

В результате модель оптимизирует свою политику, оценивая, насколько хорошо она отвечает на вопросы, не имея при этом правильного ответа. Процесс включает в себя сравнение старой и новой политики с поправкой на то, насколько новая политика улучшает вознаграждение.

Модель не меняет свою политику слишком резко, поскольку это может привести к нестабильности – подобно тому, как непредсказуемые падения ребенка могут помешать обучению. Исследователи используют метод под названием клиппинг, чтобы ограничить степень изменения политики, обеспечивая стабильность и оптимизируя работу модели с течением времени.

Третья важная техника, которую исследователи DeepSeek использовали в своей модели R1, – это дистилляция модели (Model Distillation). Полная модель DeepSeek имеет 671 млрд параметров, что требует значительных вычислительных ресурсов. Чтобы сделать ее доступнее, исследователи использовали более крупную большую языковую модель (large language model, LLM) с целью научить меньшую модель рассуждать и отвечать на вопросы. Это позволило меньшей модели работать на том же уровне, что и большая, но с гораздо меньшим количеством параметров – около 7 млрд.

Исследователи из Китая разложили модель DeepSeek на более мелкие модели, такие как Llama 3 и Qwen. Большая модель выступает в роли учителя, используя метод цепочки рассуждений для создания примеров ответов на вопросы, которые затем передаются меньшей модели, или ученику. Ученик обучается отвечать на вопросы с той же точностью, что и большая модель, благодаря чему нейросеть DeepSeek становится доступной для людей, не обладающих значительными вычислительными ресурсами.

Интересно, что в процессе обучения с подкреплением модель ученика часто превосходит модель учителя с небольшим отрывом, но при этом требует гораздо меньше памяти и хранилища. Кроме того, в своих экспериментах исследователи обнаружили, что модели-ученики превосходят более крупные модели, такие как GPT-4o и Claude 3.5 Sonnet, в задачах, связанных с математикой, кодированием и научными рассуждениями.

Андрей Виноградов про «Аэрофлот», X5 и золото

О ключевых событиях и тенденциях на финансовых рынках, динамике акций ключевых компаний и перспективах золота рассказал аналитик NZT Rusfond Андрей Виноградов.

За последние два месяца индекс Мосбиржи вырос на 23%, и этот скачок Андрей Виноградов назвал настоящим ралли. «Главными драйверами роста стали ожидания остановки повышения ставок и позитивные новости в геополитике», – отметил эксперт. Тем не менее, он подчеркнул, что инфляция остается ключевым вызовом. С начала года инфляция выросла на 1%, что значительно превышает показатели прошлых лет.

Кроме того, Центральный банк ожидает пика ставки в апреле, однако, как указал финансист, «снижение ставок в ближайшей перспективе маловероятно».

Продолжение





Вернуться в список новостей

Комментарии (0)
Оставить комментарий
Отправить
Новые статьи
  • Курс рубля быстро стабилизировался
    Дмитрий Бабин, эксперт по фондовому рынку «БКС Мир инвестиций» 02.03.2026 18:03
    482

    Рубль открылся с гэпом вверх к юаню, который приближался к уровню 11,1 руб. Однако вскоре российская валюта резко подешевела и выходила в умеренный минус, но постепенно его отыграла, вернувшись к значениям пятничного закрытия.more

  • АЛРОСА. Финансовые результаты (2П25 МСФО)
    Василий Данилов, ведущий аналитик ИК «ВЕЛЕС Капитал» 02.03.2026 18:01
    422

    АЛРОСА представила слабые финансовые результаты за 2-е полугодие и весь 2025 г. Мировой спрос на алмазы по-прежнему остается на многолетних минимумах: в январе 2026 г. чистый импорт алмазного сырья в Индию (в годовом выражении) составил 94,5 млн карат при среднеисторическом значении на уровне 120 млн карат. Сокращение продаж наряду с падением цен реализации и укреплением рубля обусловили слабую динамику ключевых показателей АЛРОСА в 2025 г. В то же время мы допускаем выплату дивидендов за 2025 г. в размере 2,5 руб. на акцию (исходя из 50% чистой прибыли по МСФО). Наша рекомендация для бумаг АЛРОСА – «Держать» с целевой ценой 38,2 руб.more

  • Внимание рынков переключается на ближневосточный конфликт
    Аналитики ФГ «Финам» 02.03.2026 16:22
    472

    Ведущие мировые фондовые рынки закрылись разнонаправленно на прошлой неделе, при этом основные американские индексы возобновили снижение. Давление на акции в Штатах оказывал рост неопределенности в отношении торговой политики администрации страны после того, как Верховный суд США признал незаконными большую часть импортных пошлин, введенных Дональдом Трампом в 2025 г., а в ответ президент принял решение поднять уровень тарифов на импорт из всех стран сначала до 10%, а затем до 15%, опираясь на закон о торговле 1974 г. more

  • Отчет Ozon за 2025 год: рост выше прогноза и первая прибыль. Дайджест Fomag
    Николай Пилатовский 02.03.2026 15:58
    478

    Ozon представил финансовые результаты за IV квартал и 2025 год. Компания показала рост оборота выше собственного прогноза, значительное улучшение EBITDA и прибыль во втором полугодии. Одновременно менеджмент дал ориентиры на 2026 год: GMV +25-30%, EBITDA около 200 млрд рублей и выход на чистую прибыль.more

  • HeadHunter. Прогноз финансовых результатов (4К25 МСФО)
    HeadHunter. Прогноз финансовых результатов (4К25 МСФО) , Артем Михайлин, аналитик ИК «ВЕЛЕС Капитал» 02.03.2026 15:35
    525

    HeadHunter представит свои финансовые результаты за 4К 2025 г. в пятницу, 6 марта. Согласно нашим оценкам, выручка группы по итогам октября—декабря осталась примерно на уровне прошлого года. Мы ожидаем увидеть небольшое снижение доходов основного бизнеса, которое могло быть компенсировано ростом сегмента HRtech. Охлаждение экономики и непростая ситуация на рынке труда, скорее всего, продолжали оказывать давление на операционные показатели сервиса. За 2025 г. выручка, по нашим расчетам, увеличилась на 4% г/г, что немного опережает цель компании, которая предполагала рост продаж в пределах 3% г/г. Рентабельность скор. EBITDA в 4К могла слегка улучшиться г/г благодаря оптимизации затрат и высокому уровню органического трафика. Менеджмент HH прогнозировал, что рентабельность скор. EBITDA по итогам 2025 г. будет выше 52%. Мы считаем, что компании удалось достичь нужного результата, и маржинальность составила 54,5%. На наш взгляд, группа в прошлом году получила свободный денежный поток около 20 млрд руб., что позволит выплатить финальные дивиденды на уровне 220 руб. на акцию (доходность 7,3%). Наша текущая рекомендация для акций HeadHunter — «Покупать» с целевой ценой 5 224 руб. за бумагу.more