ChatGPT: оптимизация
языковых моделей
для диалога
Мы обучили модель под названием ChatGPT, которая взаимодействует в диалоговом режиме. Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы. ChatGPT — это родственная модель InstructGPT , которая обучена следовать инструкциям в подсказке и предоставлять подробный ответ.
Методы
Мы обучили эту модель с помощью Reinforcement Learning from Human Feedback (RLHF), используя те же методы, что и InstructGPT , но с небольшими отличиями в настройке сбора данных. Мы обучили первоначальную модель с помощью контролируемой тонкой настройки: ИИ-тренеры проводили беседы, в которых они играли обе стороны — пользователя и ИИ-помощника. Мы предоставили инструкторам доступ к написанным образцам предложениям, чтобы помочь им составить свои ответы. Мы смешали этот новый набор данных диалога с набором данных InstructGPT, который мы преобразовали в формат диалога.
Чтобы создать модель вознаграждения для обучения с подкреплением, нам нужно было собрать сравнительные данные, которые состояли из двух или более ответов модели, ранжированных по качеству. Чтобы собрать эти данные, мы взяли разговоры тренеров по ИИ с чат-ботом. Мы случайным образом выбрали написанное моделью сообщение, попробовали несколько альтернативных вариантов завершения и попросили тренеров ИИ ранжировать их. Используя эти модели вознаграждения, мы можем точно настроить модель с помощью Proximal Policy Optimization . Мы выполнили несколько итераций этого процесса.
ChatGPT доработан из модели серии GPT-3.5, обучение которой закончилось в начале 2022 года. Подробнее о серии 3.5 можно узнать здесь . ChatGPT и GPT 3.5 прошли обучение на суперкомпьютерной инфраструктуре Azure AI.
Ограничения
- ChatGPT иногда пишет правдоподобно звучащие, но неправильные или бессмысленные ответы. Исправить эту проблему сложно, так как: (1) во время обучения RL в настоящее время нет источника правды; (2) обучение модели быть более осторожной заставляет ее отклонять вопросы, на которые она может ответить правильно; и (3) контролируемое обучение вводит модель в заблуждение, потому что идеальный ответ зависит от того, что знает модель , а не от того, что знает человек-демонстратор.
- ChatGPT чувствителен к изменениям фразировки ввода или повторным попыткам ввести одно и то же приглашение. Например, при одной формулировке вопроса модель может утверждать, что не знает ответа, но при небольшой перефразировке может ответить правильно.
- Модель часто чрезмерно многословна и злоупотребляет определенными фразами, например, повторяет, что это языковая модель, обученная OpenAI. Эти проблемы возникают из-за предвзятости в обучающих данных (инструкторы предпочитают более длинные ответы, которые выглядят более исчерпывающими) и хорошо известных проблем чрезмерной оптимизации. 1 2
- В идеале модель задавала бы уточняющие вопросы, когда пользователь вводил неоднозначный запрос. Вместо этого наши текущие модели обычно угадывают, что имел в виду пользователь.
- Хотя мы приложили усилия, чтобы заставить модель отказываться от неуместных запросов, иногда она будет реагировать на вредные инструкции или проявлять предвзятое поведение. Мы используем API модерации, чтобы предупреждать или блокировать определенные типы небезопасного контента, но мы ожидаем, что на данный момент он будет иметь некоторые ложные отрицательные и положительные результаты. Мы стремимся собирать отзывы пользователей, чтобы помочь в нашей текущей работе по улучшению этой системы.
Итеративное развертывание
Сегодняшний исследовательский выпуск ChatGPT — это последний шаг в итеративном развертывании OpenAI все более безопасных и полезных систем искусственного интеллекта. Многие уроки, извлеченные из развертывания более ранних моделей, таких как GPT-3 и Codex, позволили определить меры по снижению безопасности в этом выпуске, в том числе существенное сокращение вредных и недостоверных результатов, достигнутое за счет использования обучения с подкреплением на основе обратной связи с человеком (RLHF).
Мы знаем, что многие ограничения остаются, как обсуждалось выше, и мы планируем регулярно обновлять модель, чтобы улучшить эти области. Но мы также надеемся, что, предоставив доступный интерфейс ChatGPT, мы получим ценные отзывы пользователей по проблемам, о которых мы еще не знаем.
Пользователям рекомендуется оставлять отзывы о проблемных выходных данных модели через пользовательский интерфейс, а также о ложных срабатываниях/отрицательных результатах внешнего фильтра содержимого, который также является частью интерфейса. Мы особенно заинтересованы в отзывах о вредных выходных данных, которые могут возникнуть в реальных, неконкурентных условиях, а также в отзывах, которые помогают нам выявлять и понимать новые риски и возможные меры по их устранению. Вы можете принять участие в конкурсе отзывов ChatGPT 3 для шанс выиграть до 500 долларов в кредитах API. [1]
Мы рады использовать уроки, полученные в этом выпуске, при развертывании более мощных систем, как и в предыдущих развертываниях.
Оставить ответ