Multimodal CoT Prompting
Дословно на русский как "Мультимодальный (CoT) Промптинг" или же "Мультимодальный подход к промптингу с использованием цепочки мыслей (CoT)"
Last updated
Дословно на русский как "Мультимодальный (CoT) Промптинг" или же "Мультимодальный подход к промптингу с использованием цепочки мыслей (CoT)"
Last updated
В недавнем исследовании Zhang и др. (2023) был представлен метод мультимодального формирования цепочки мыслей (Multimodal CoT). Традиционная цепочка мыслей сфокусирована на языковой информации. В отличие от неё, мультимодальная цепочка мыслей объединяет текст и визуальные данные в двухэтапной структуре. Первый этап включает в себя генерацию обоснований на основе мультимодальной информации. Затем следует второй этап - формирование ответа, используя информативные созданные обоснования.
Проще говоря, они разработали метод, где не только слова, но и картинки помогают ответить на вопросы. Сначала они смотрят на слова и картинки, чтобы найти ответы. Затем они используют всю эту информацию, чтобы дать хороший и правильный ответ. Таким образом, им легче понимать вопросы и давать точные ответы.
Мультимодельная цепочка мыслей (1B) показала лучшие результаты по сравнению с моделью GPT-3.5 на задачах из набора данных ScienceQA.
ScienceQA - это набор данных, который используется для оценки и тестирования моделей искусственного интеллекта на задачах, связанных с научными знаниями и вопросами-ответами. Этот набор данных содержит вопросы, основанные на научных текстах, и соответствующие ответы. Модели искусственного интеллекта тестируются на способность понимания вопросов и выдачи правильных ответов на основе научных знаний.
Источник изображения: Zhang и др. (2023)
Дополнительная литература:
Language Is Not All You Need: Aligning Perception with Language Models (февраль 2023 г.)