⚠️Flan
Масштабирование языковых моделей с помощью обучения на инструкциях
Last updated
Масштабирование языковых моделей с помощью обучения на инструкциях
Last updated
Источник изображения: Scaling Instruction-Finetuned Language Models
В данной статье исследуются преимущества масштабирования процесса обучения на инструкциях (instruction finetuning) и его положительное влияние на эффективность различных моделей (PaLM, T5), вариантов использования запросов (zero-shot, few-shot, CoT) и результаты на различных бенчмарках (MMLU, TyDiQA). Для этого проанализированы следующие аспекты: расширение числа задач (1,8 тыс. задач), увеличение размера модели и обучение на данных, охватывающих цепочку мыслей (использовано 9 наборов данных).
Процедура обучения на инструкциях:
1,8 тыс. задач формулируются как инструкции и используются для дообучения модели
Используются как с образцами, так и без образцов, а также с и без CoT
Примеры задач для обучения и задач для проверки показаны ниже:
Обучение на инструкциях масштабируется хорошо с увеличением количества задач и размера модели, что говорит о необходимости дальнейшего увеличения количества задач и размера модели
Добавление данных цепи мыслей в обучение позволяет достичь хорошей производительности на задачах рассуждения
Flan-PaLM обладает улучшенными мультиязычными возможностями; улучшение на 14,9% в тесте с одним шагом TyDiQA; улучшение на 8,1% в арифметическом рассуждении на недостаточно представленных языках
Plan-PaLM также хорошо справляется с вопросами, требующими генерации открытых ответов, что является хорошим показателем улучшенной применимости
Улучшает результаты на ответственных бенчмарках искусственного интеллекта (RAI)
Модели, обученные с помощью инструкций на Flan-T5, проявляют сильные возможности few-shot и превосходят общедоступные контрольные точки, такие как T5
Результаты при масштабировании количества задач обучения и размера модели: масштабирование как размера модели, так и количества задач обучения ожидается, что продолжит улучшать производительность, хотя масштабирование количества задач имеет убывающую отдачу.
Источник изображения: Scaling Instruction-Finetuned Language Models
Результаты при обучении с использованием данных без CoT и с CoT: Совместное обучение на данных без CoT и с CoT улучшает производительность на обеих оценках по сравнению с обучением только на одной из них.
Источник изображения: Scaling Instruction-Finetuned Language Models
Более того, применение метода самоконсистентности в сочетании с данными, охватывающими цепочку мыслей, демонстрирует выдающиеся результаты на нескольких бенчмарках. Особенно важно отметить, что обучение с использованием метода CoT в сочетании с самоконсистентностью существенно улучшает показатели на бенчмарках, связанных с математическими задачами (например, MGSM, GSM8K).
Источник изображения: Scaling Instruction-Finetuned Language Models
Обучение с использованием данных цепи мыслей позволяет решать задачи рассуждения "шаг за шагом" в нулевом режиме на задачах BIG-Bench. В целом, модель Flan-PaLM с обучением на данных цепи мыслей в режиме нулевой настройки показывает лучшие результаты по сравнению с моделью PaLM без обучения на данных цепи мыслей.
Источник изображения: Scaling Instruction-Finetuned Language Models
Ниже приведены некоторые демонстрации способностей обучения на инструкциях для моделей PaLM и Flan-PaLM на незнакомых задачах.
Источник изображения: Scaling Instruction-Finetuned Language Models
Вот дополнительные примеры нулевой настройки. Они иллюстрируют проблемы модели PaLM, такие как повторения и несоблюдение инструкций в режиме нулевой настройки, в то время как модель Flan-PaLM успешно справляется с этими задачами. Несколько примеров в режиме few-shot может улучшить эти ошибки.
Источник изображения: Scaling Instruction-Finetuned Language Models
Ниже приведены некоторые примеры демонстрации возможностей модели Flan-PALM в режиме нулевой настройки на различных типах сложных вопросов с открытым ответом:
Источник изображения: Scaling Instruction-Finetuned Language Models
Источник изображения: Scaling Instruction-Finetuned Language Models
Источник изображения: Scaling Instruction-Finetuned Language Models
Вы можете попробовать модели Flan-T5 на Hugging Face Hub.