Экспертиза / Financial One

Что такое большая языковая модель? Как она работает?

7365

О принципах работы больших языковых моделей рассказал ведущий образовательного математического канала 3Blue1Brown Грант Сандерсон.

Представьте, что вам попался короткий сценарий фильма, в котором описывается сцена между человеком и его помощником в виде искусственного интеллекта (ИИ). В сценарии есть то, что человек спрашивает у ИИ, но ответ ИИ не представлен. Предположим, у вас есть мощная магическая машина, которая может взять любой текст и выдать разумное предсказание того, какое слово в нем будет следующим. Тогда вы сможете дописать сценарий, передав машине тот текст, который у вас уже есть.

Когда вы взаимодействуете с чат-ботом, именно это и происходит. Большая языковая модель – это сложная математическая функция, которая предсказывает, какое слово будет следующим в любом фрагменте текста. Однако вместо того, чтобы с уверенностью предсказать одно слово, она присваивает вероятность всем возможным следующим словам.

Чтобы создать чат-бота, вы составляете текст, описывающий взаимодействие между пользователем и гипотетическим помощником ИИ, добавляете все, что пользователь вводит в качестве первой части взаимодействия, а затем заставляете модель несколько раз предсказать следующее слово, которое такой гипотетический помощник ИИ произнесет в ответ, и именно это слово будет представлено пользователю. При этом результат будет выглядеть гораздо естественнее, если позволить модели выбирать менее вероятные слова в случайном порядке. Это означает, что, хотя сама модель детерминирована, при каждом запуске она обычно выдает разные ответы.

Модели учатся делать прогнозы, обрабатывая огромное количество текста, обычно взятого из интернета. Для того чтобы обычный человек прочитал тот объем текста, который был использован для обучения GPT-3, например, если бы он читал без перерыва 24 часа в сутки, потребовалось бы более 2600 лет. Более крупные модели с тех пор тренируются на гораздо, гораздо большем объеме. Обучение можно представить как настройку циферблатов на большой машине. То, как ведет себя языковая модель, полностью определяется множеством различных непрерывных значений, обычно называемых параметрами или весами. Изменение этих параметров приводит к изменению вероятностей, которые модель выдает для следующего слова.

Что делает большую языковую модель большой, так это то, что у нее могут быть сотни миллиардов таких параметров. Человек никогда не устанавливает эти параметры намеренно: изначально модель просто выдает тарабарщину, но ответы многократно уточняются на основе множества примеров текста. Один из таких обучающих примеров может состоять из нескольких слов, а может и из тысяч, но в любом случае модель работает следующим образом: в нее вводятся все слова, кроме последнего, и она сравнивает полученное предсказание с истинным последним словом из примера. Алгоритм под названием метод обратного распространения ошибки, используется для изменения всех параметров таким образом, чтобы модель с большей вероятностью выбрала истинное последнее слово и с меньшей – все остальные.

Повторив все это на триллионах примеров, модель не только начинает давать более точные предсказания на обучающих данных, но и начинает делать более обоснованные предсказания на тексте, который она никогда раньше не видела. Учитывая огромное количество параметров и колоссальный объем обучающих данных, масштаб вычислений, связанных с обучением большой языковой модели, просто поражает воображение. Для примера представьте, что вы можете выполнять миллиард сложений и умножений каждую секунду. Попробуйте предположить, сколько времени вам понадобится, чтобы выполнить все операции, связанные с обучением самых больших языковых моделей? Думаете, это займет год? Может быть, что-то вроде 10 тысяч лет? На самом деле ответ гораздо больше – более 100 млн лет.

Однако это лишь часть истории. Весь этот процесс называется предварительным обучением. Цель автозаполнения случайного отрывка текста из интернета сильно отличается от цели стать хорошим помощником ИИ. Чтобы решить эту проблему, чат-боты проходят другой тип обучения, не менее важный, который называется обучением с подкреплением и обратной связью от человека. Работники отмечают бесполезные или проблематичные прогнозы, и их исправления изменяют параметры модели, повышая вероятность того, что она будет давать прогнозы, которые понравятся пользователям.

Однако, если вспомнить предварительное обучение, такой ошеломляющий объем вычислений возможен только благодаря использованию специальных компьютерных чипов, оптимизированных для параллельного выполнения множества операций, известных как графические процессоры. Кстати, до 2017 года большинство языковых моделей обрабатывали текст по одному слову за раз, но затем команда исследователей из Google представила новую модель, известную как трансформер. Трансформеры не читают текст от начала до конца, они впитывают его сразу, параллельно.

Самым первым шагом трансформера, да и большинства других языковых моделей, является ассоциация каждого слова с длинным списком чисел. Причина в том, что процесс обучения работает только с непрерывными значениями, поэтому необходимо как-то закодировать язык с помощью чисел, и каждый из этих списков чисел должен каким-то образом кодировать значение соответствующего слова. Уникальность трансформеров заключается в том, что они опираются на специальную операцию, известную как внимание. Эта операция дает всем спискам чисел возможность общаться друг с другом и уточнять значения, которые они кодируют, исходя из окружающего контекста, причем все это происходит параллельно.

Трансформеры обычно включают в себя и второй тип операций, известный как нейронная сеть с прямой связью, что дает модели дополнительные возможности для хранения большего количества закономерностей в языке, полученных в процессе обучения.

Хотя исследователи разрабатывают структуру работы каждого из этапов, важно понимать, что конкретное поведение представляет собой эмерджентность, то есть несводимость свойств системы к сумме свойств ее компонентов. Эмерджентность основана на том, как именно сотни миллиардов параметров настраиваются в процессе обучения. Поэтому определить, почему модель делает те или иные прогнозы, невероятно сложно.

Антон Прокудин о снижении цен на нефть и ослаблении рубля

Как политика Дональда Трампа повлияет на российский рынок, что будет с ценами на нефть и курсом рубля, обсудили с главным макроэкономистом УК «Ингосстрах – инвестиции» Антоном Прокудиным.

Делимся мнением эксперта от первого лица.

Наиболее важные тезисы, которые произносил Трамп и в рамках предвыборной кампании, и до нее, заключаются в том, что он хочет несколько увеличить расходы и сократить доходную часть американского бюджета за счет снижения налогов. Он также обещал ввести пошлины в отношении ряда импортных товаров, прежде всего китайских.

Продолжение





Вернуться в список новостей

Комментарии (0)
Оставить комментарий
Отправить
Новые статьи
  • ЦБ поставит смягчение монетарных условий на паузу
    Наталья Мильчакова, аналитик Freedom Finance Global 20.03.2026 18:27
    611

    Банк России 20 марта снизил ключевую ставку на 0,5 процентного пункта, до 15% годовых, как и предполагали наши прогнозы. Считаем, что главным аргументом для этого решения стало продолжение замедления годовой инфляции в феврале и недельной инфляции в первой половине марта, когда потребительские цены росли не более, чем на 0,1 процентного пункта в неделю. А вот инфляционные ожидания населения, которые в марте неожиданно подскочили с 13,1% до 13,4%, возможно, преподнесли регулятору сюрприз, поэтому на более активное смягчение ДКП он не пошел.more

  • Цена нефти и газа. Куда смотрят энергоносители
    Андрей Мамонтов, эксперт по фондовому рынку «БКС Мир инвестиций» 20.03.2026 16:38
    754

    Фьючерсы на нефть марки Brent завершили четверг на уровне плюс 1,18%. Ормузский пролив остается закрытым, что в ближайшие недели создает угрозу заполнения нефтехранилищ у ключевых экспортеров нефти в регионе. Напряженность на Ближнем Востоке сохраняется. В четверг стартовала волна коррекции после заявлений МЭА о том, что первые поставки из стратегических резервов начали поступать на рынок. Пока нет слома минимума дня $103,76, дневная структура на стороне покупателей. Сформированные цели роста: 1) 121,66–123 2) 125,89–126,5.more

  • Банк России снизил ставку до 15%, но предупредил о росте внешних рисков
    Ольга Беленькая, руководитель отдела макроэкономического анализа ФГ «Финам» 20.03.2026 16:01
    751

    На заседании 20 марта Банк России в седьмой раз подряд снизил ключевую ставку – вновь на 50 б.п., до 15,0%. Решение совпало с нашими ожиданиями и с рыночным консенсусом. Банк России сохранил умеренно-мягкий сигнал, немного дополнив его: «Банк России будет оценивать целесообразность дальнейшего снижения ключевой ставки на ближайших заседаниях в зависимости от устойчивости замедления инфляции, динамики инфляционных ожиданий, а также от оценки рисков со стороны внешних и внутренних условий».more

  • Банк Санкт-Петербург остается интересной дивидендной историей
    Наталья Мильчакова, аналитик Freedom Finance Global 20.03.2026 15:45
    755

    Банк Санкт-Петербург (БСП) в ходе торгов 20 марта, проходящих в умеренном плюсе, вышел в лидеры роста: его обыкновенные акции дорожают на 1,6%, до 337,76 руб.
    Позитивную динамику котировок эмитента мы объясняем рекомендацией его набсовета утвердить дивиденд за второе полугодие 2025 года в размере 26,23 руб. на обыкновенную акцию и 0,22 руб. на привилегированную. Общее собрание акционеров, на котором будет обсуждаться этот вопрос, назначено на 28 апреля. В случае положительного решения реестр для получения выплат закроется 12 мая, то есть владеть бумагами банка в расчете на дивиденд нужно по состоянию на 11 мая.more

  • Акрон. Прогноз результатов (4К25 МСФО)
    Василий Данилов, ведущий аналитик ИК «ВЕЛЕС Капитал» 20.03.2026 15:21
    735

    23 марта Акрон представит финансовые результаты по МСФО за 4-й квартал и весь 2025 г. Мы ожидаем, что в 4-м квартале 2025 г. компания нарастит выручку на 2,3% г/г, до 56,4 млрд руб. EBITDA вырастет на 25,2% г/г, до 19,8 млрд руб., с рентабельностью 35,2% против 28,7% годом ранее. more