GPT-4 уже на за горами. Что мы о нём знаем

Блог компании Cloud4Y. Автор оригинала: Alberto Romero. Возможно, вы помните, что о появлении GPT-3 объявили в мае 2020 года. Его запустили через год после GPT-2, который также появился спустя год после первой версии GPT. Если бы эта тенденция сохранялась, то GPT-4 уже был бы доступен. Увы, четвёртой версии мы пока не дождались. Но генеральный директор OpenAI Сэм Альтман недавно заявил, что GPT-4 на подходе. Некоторые эксперты полагают, что релиз состоится где-то в июле-августе 2022 года.

Удивительно то, что информации о GPT-4 очень мало. На что он будет похож, какие у этой модели особенности и возможности. Точно известно, что у GPT-4 не будет 100 триллионов параметров (т.е. в 500 раз больше, чем заложено в GPT-3). Для создания такой большой модели нужно больше времени.

Давайте попробуем разобраться, что ещё известно о четвёртом поколении алгоритма обработки естественного языка от OpenAI.

Размер

GPT-4 не будет самой большой языковой моделью. По словам Сэма Альтмана, новая модель будет не намного больше GPT-3. По сравнению с нейронными сетями предыдущих поколений она может выглядеть огромной, но размер не будет её отличительной чертой. GPT-4 будет находиться где-то между GPT-3 и Gopher (175–280 миллиардов параметров).

У такого решения есть веская причина.

Megatron-Turing NLG, созданный Nvidia и Microsoft в прошлом году, до недавнего времени удерживал звание крупнейшей монолитной трансформаторная языковой модели с 530 миллиардами параметров — уже в 3 раза больше, чем GPT-3 (теперь PaLM от Google удерживает титул рекордсмена с 540 млрд). Но примечательно, что некоторые более мелкие модели, появившиеся после MT-NLG, достигли более высоких уровней производительности.

Больше ≠ лучше.

Существование моделей меньшего размера, но с лучшими результатами, имеет два последствия.

Во-первых, компании осознали, что использование размера модели в качестве способа повышения производительности — не единственный и не лучший способ добиться желаемых результатов. В 2020 году Джаред Каплан из OpenAI и его коллеги пришли к выводу, что производительность повышается, когда увеличение вычислительного бюджета направляется в основном на масштабирование числа параметров в соответствии со степенной зависимостью. Google, Nvidia, Microsoft, OpenAI, DeepMind и другие компании, разрабатывающие языковые модели, приняли эти рекомендации за единственно верную теорию.

Но MT-NLG, несмотря на свои размеры, не является лучшим с точки зрения производительности. На самом деле, модель не смогла показать лучшие результаты ни в одной категории. Модели поменьше вроде Gopher (280 млрд параметров) или Chinchilla (70 млрд) в решении задач оказались намного лучше MT-NLG.

Стало ясно, что размер модели — не единственный критерий для создания лучшей языковой модели. Поэтому компании начинают отказываться от догмы «чем больше, тем лучше». Большое количество параметров — лишь один из многих факторов, способных повысить производительность. А побочный ущерб (например, углеродный след, затраты на вычисления или входные барьеры) делает его одним из худших способов развития модели, хотя и простым в реализации. Компании дважды подумают, прежде чем строить гигантскую модель, если они могут получить такие же или лучшие результаты от модели меньшего размера.

Альтман во время одного из своих выступлений сказал, что OpenAI сосредотачивается не на создании моделей-гигантов, а на том, чтобы извлечь максимальную пользу из моделей меньшего размера. Да, разработчики OpenAI были ранними сторонниками гипотезы масштабирования, но поняли, что другие пути могут привести к улучшению моделей.

Упор на оптимизацию

Языковые модели страдают от одного важного фактора: недооптимизации. Обучение настолько дорогое, что компаниям приходится искать компромисс между точностью модели и стоимостью её обучения. Это часто приводит к заметной недооптимизации моделей.

GPT-3 обучался только один раз, несмотря на ошибки, которые в других (нормальных) ситуациях повлекли бы за собой повторное обучение. OpenAI решил не делать этого из-за чрезмерных расходов, которые ограничивают разработчиков в стремлении создать лучший набор гиперпараметров для модели (например, скорость обучения, размер пакета, длина последовательности и т. д.).

Ещё одна проблема, вытекающая из чересчур высокой стоимости обучения — ограниченный анализ поведения модели. Когда упоминавшаяся выше команда Д. Каплана пришла к выводу о важности размера модели для повышения производительности, объём передаваемых модели данных (входных токенов) не учитывался. Просто потому, что для этого потребовалось бы непомерно большое количество вычислительных ресурсов.

Технологические компании приняли выводы Каплана за аксиому, не попытавшись перепроверить их. Google, Microsoft, Facebook и другие тратили миллионы на всё более крупные модели, вредя и экологии, и самим себе. Теперь компании во главе с DeepMind и OpenAI изучают другие подходы. Они пытаются найти оптимальные модели, а не просто большие.

Оптимальная параметризация

В прошлом месяце Microsoft и OpenAI доказали, что GPT-3 можно улучшить, если обучить модель с оптимальными гиперпараметрами. Они обнаружили, что версия GPT-3 с 6.7 млрд параметров увеличила свою производительность настолько, что стала сравнима с исходной моделью GPT-3 (13 млрд параметров). Настройка гиперпараметров, невозможная для больших моделей, привела к увеличению производительности фактически в два раза.

Компании разработали новую параметризацию (μP), в которой лучшие гиперпараметры для маленькой модели аналогично проявляли себя в более крупной модели того же семейства. μP позволил оптимизировать модели произвольного размера. Затем гиперпараметры могут быть практически бесплатно перенесены в более крупную модель. Проще говоря, µTransfer эффективен для масштабирования существующих архитектур до больших размеров, когда некоторые гиперпараметры можно использовать повторно.

Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (да, только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать можно рассчитывать, что вскоре его можно будет встретить во всех фреймворках.

Модели оптимальных вычислений

Несколько недель назад DeepMind пересмотрел выводы Каплана и понял, что, вопреки распространённому мнению, количество обучающих токенов влияет на производительность так же сильно, как и размер модели. Исследователи пришли к выводу, что по мере увеличения вычислительного бюджета его следует в равной степени распределять на параметры масштабирования и данные.

Эта гипотеза была доказана путём обучения Chinchilla (модель с 70 млрд параметров). Эта модель в 4 раза меньше предыдущего лидера в области языкового ИИ, Gopher (также созданной DeepMind). Исследователи обнаружили, что Chinchilla «одинаково и значительно» превосходит Gopher, GPT-3, Jurassic-1 и Megatron-Turing NLG на тестах. Всё потому, что эти модели оказались недостаточно обучены и слишком велики.

Учитывая, что GPT-4 будет немного больше GPT-3, количество обучающих токенов, необходимых для оптимизации вычислений (согласно выводам DeepMind), составит около 5 триллионов — на порядок больше, чем текущие наборы данных. Количество FLOP, которое им потребуется для обучения модели, чтобы достичь минимальных потерь при обучении, будет примерно в 10–20 раз больше, чем использовалjcm для GPT-3.

OpenAI, несомненно, внедрит идеи, связанные с оптимизацией, в GPT-4. Какие именно — неизвестно. Несомненно, они сосредоточатся на оптимизации и других характеристик, кроме размера модели. Это может привести к невероятным результатам работы моделей (а может и не привести).

Мультимодальность: GPT-4 будет работать только с текстами

Будущее глубокого обучения — это мультимодальные модели. Они должны работать с разными типами информации, потому мы живем в мультимодальном мире. Восприятие мира в одном режиме за раз сильно ограничивает способность ИИ ориентироваться или понимать его. Однако строить такие модели значительно сложнее. Объединить языковую и визуальную модели высокой точности — непростая задача. У нас имеются ограниченные представления о том, как это делает человеческий мозг, поэтому мы не знаем, как реализовать аналогичные схемы в нейросетях.

Так что GPT-4 будет обычной языковой моделью, а не мультимодальной, как DALL-e или MUM.

GPT-4 будет полносвязной

Разреженные модели с условными вычислениями, когда применяются разные части модели для обработки разного вида входящих данных, в последнее время добились большого успеха. Эти модели легко масштабируются за пределы 1T-параметра, не страдая от высоких вычислительных затрат. Однако преимущества таких моделей улетучиваются с увеличением их размеров.

Учитывая увлечение OpenAI полносвязными моделями, стоит ожидать, что и GPT-4 будет такой же. Поскольку новая модель будет чуть больше GPT-3, можно предположить, что разреженность для OpenAI не в приоритете.

Разреженность и мультимодальность, вероятно, станут приоритетными направлениями развития нейросетей. Особенно если учесть, что наш мозг (источник вдохновения ИИ) сильно зависит от разреженной обработки.

Выравнивание: GPT-4 станет лучше понимать нас

Команда OpenAI потратила много сил, решая проблему совпадения: «как научить языковую модель понимать наши намерения и мысли?». Это сложная проблема не только с математической точки зрения (как мы можем заставить ИИ точно понимать, чего мы хотим?), но и с философской (не существует универсального способа заставить ИИ мыслить аналогично людям, поскольку вариативность человеческих ценностей в разных группах очень велика). Пока что данная задача выходит за рамки точных наук, ведь непонятно, как именно посчитать, что именно мы хотим.

InstructGPT стала первой попыткой сделать модель, которая обучалась бы на основе обратной связи от человека. Хотя производительность модели оставляет желать лучшего, эксперты сочли, что она неплохо справляется с задачами. Это доказывает, что нам стоит опираться не только на тесты и метрики, но и на собственное восприятие.

Очень вероятно, что разработчики GPT-4 используют данные этого эксперимента, добавив опыт не только англоговорящих, но и других людей, независимо от пола, возраста или происхождения.

Отметим, что недавно Альтман заявил, о потенциальной способности GPT-5 пройти тест Тьюринга. При этом он подчеркнул, что, возможно, это достижение не стоит затрачиваемых сил.

Источник(и):

Хабр