Коллекция LLM
В данном разделе представлен сборник и краткое описание ключевых и фундаментальных языковых моделей (LLM).
Модели
Май 2023 г.
7, 40
Falcon LLM - это фундаментальная большая языковая модель (LLM) с 40 миллиардами параметров, обученная на одном триллионе токенов. Компания TII выпустила Falcon LLM - 40-битную модель.
Май 2023 г.
-
-
Языковая модель, обладающая лучшими многоязыковыми и аргументационными возможностями и более высокой вычислительной эффективностью, чем ее предшественница PaLM.
Май 2023 г.
-
-
"К достижению экспертного уровня в ответах на медицинские вопросы с использованием больших языковых моделей"
Май 2023 г.
7
Gorilla: Большая языковая модель, связанная с массивными API
Май 2023 г.
3, 7
Семейство моделей, включающее базовую, настраиваемую по инструкции и чат-модели.
Май 2023 г.
65
-
Языковая модель LLaMa с 65 параметрами, настроенная с помощью стандартных потерь при супервизии всего на 1000 тщательно отобранных подсказках и ответах, без какого-либо обучения с подкреплением или моделирования предпочтений человека.
Май 2023 г.
3
Модель replit-code-v1-3b представляет собой 2.7B LLM, обученный на 20 языках из набора данных Stack Dedup v1.2.
Май 2023 г.
12
h2oGPT - это фреймворк для тонкой настройки большой языковой модели (LLM) и пользовательский интерфейс чатбота с функцией "вопрос-ответ" для документов.
Май 2023 г.
1, 3, 7, 16
Модели кода для синтеза программ.
Май 2023 г.
16
Модели CodeT5 и CodeT5+ для понимания и генерации кода от Salesforce Research.
Май 2023 г.
15
StarCoder: Современный LLM для кода
Май 2023 г.
7
MPT-7B - это модель в стиле GPT, первая в серии моделей MosaicML Foundation.
Май 2023 г.
0.124 - 1.5
Облегченные модели следования инструкциям, демонстрирующие интерактивность, подобную ChatGPT.
Апрель 2023 г.
3, 7, 12
LLM, работающий по инструкции, отлаженный на базе данных инструкций, созданных человеком, лицензированной для исследовательского и коммерческого использования.
Апрель 2023 г.
3, 7
Серия языковых моделей StableLM компании Stability AI
Апрель 2023 г.
0.070 - 12
Набор из 16 LLM, обученных на общедоступных данных, представленных в точно таком же порядке и имеющих размер от 70М до 12Б параметров.
Март 2023 г.
12
OpenAssistant - это чат-ассистент, который понимает задачи, может взаимодействовать со сторонними системами и динамически получать для этого информацию.
Март 2023 г.
0.111 - 13
"Cerebras-GPT: Обучение оптимальных языковых моделей с использованием вычислительного кластера Cerebras на вафельной плате"
Март 2023 г.
50
-
BloombergGPT: Большая языковая модель для финансов
Март 2023 г.
1085
-
PanGu-Σ: К модели языка с триллионом параметров с помощью разреженных гетерогенных вычислений
Март 2023 г.
-
-
Технический отчет GPT-4
Февраль 2023 г.
7, 13, 33, 65
LLaMA: открытые и эффективные базовые языковые модели
Ноябрь 2022 г.
-
-
Модель под названием ChatGPT, которая взаимодействует в диалоговом режиме. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.
Ноябрь 2022 г.
0.125 - 120
Galactica:Большая языковая модель для науки
Ноябрь 2022 г.
13
Межъязыковая генерализация через многозадачную настройку
Ноябрь 2022 г.
176
BLOOM: 176B-параметрическая многоязычная модель с открытым доступом
Октябрь 2022 г.
540
-
Преодоление законов масштабирования с помощью 0,1% дополнительных вычислений
Октябрь 2022 г.
20
UL2: Объединение парадигм обучения иностранным языкам
Сентябрь 2022 г.
70
-
Улучшение согласованности диалоговых агентов с помощью целевых человеческих оценок
Октябрь 2022 г.
11
Масштабирование языковых моделей, ориентированных на обучение
Август 2022 г.
20
-
AlexaTM 20B: обучение по нескольким снимкам с использованием крупномасштабной многоязычной модели Seq2Seq
Октябрь 2022 г.
130
GLM-130B: открытая двуязычная предварительно обученная модель
Декабрь 2022 г.
30, 175
OPT-IML: масштабирование метаобучения языковых моделей через призму обобщения
Май 2022 г.
175
OPT: Открытые предварительно обученные трансформаторные языковые модели
Апрель 2022 г.
540
-
PaLM: масштабирование моделирования языка с помощью путей
Апрель 2022 г.
11
Super-NaturalInstructions: Обобщение с помощью декларативных инструкций на 1600+ задач НЛП
Апрель 2022 г.
20
GPT-NeoX-20B: авторегрессионная модель языка с открытым исходным кодом
Март 2022 г.
70
-
Показано, что при определенном вычислительном бюджете наилучшие показатели достигаются не за счет самых больших моделей, а за счет меньших моделей, обученных на большем количестве данных.
Март 2022 г.
175
-
Обучение языковых моделей выполнению инструкций с обратной связью от человека
Март 2022 г.
0.350 - 16
CodeGen: Открытая модель большого языка для кода с многооборотным программным синтезом
Февраль 2022 г.
41
-
Генерация кода на уровне соревнований с помощью AlphaCode
Январь 2022 г.
530
-
Использование DeepSpeed и Megatron для обучения крупномасштабной генеративной модели языка Megatron-Turing NLG 530B
Январь 2022 г.
137
-
LaMDA: Языковые модели для диалоговых приложений
Декабрь 2021 г.
1200
-
GLaM: Эффективное масштабирование языковых моделей с использованием смеси экспертов
Декабрь 2021 г.
280
-
Масштабирование языковых моделей: Методы, анализ и выводы из обучения Gopher
Декабрь 2021 г.
175
-
WebGPT: Браузерный поиск ответов на вопросы с обратной связью
Октябрь 2021 г.
245
-
Юань 1.0: Крупномасштабная предварительно обученная языковая модель при обучении с нулевым и малым количеством кадров
Октябрь 2021 г.
11
Многозадачное обучение с подсказками обеспечивает генерализацию задач с нулевым результатом
Сентябрь 2021 г.
137
-
Тонко настроенные языковые модели являются нулевыми обучаемыми
Сентябрь 2021 г.
82
-
Какие изменения могут принести крупномасштабные языковые модели? Интенсивное исследование HyperCLOVA: миллиардные генеративные предварительно обученные трансформаторы корейского языка
Июль 2021 г.
10
-
ERNIE 3.0 Titan: Исследование крупномасштабного предварительного обучения с расширением знаний для понимания и генерации языка
Август 2021 г.
178
-
Jurassic-1: технические подробности и оценка
Июль 2021 г.
10
-
ERNIE 3.0: Крупномасштабное предварительное обучение с расширением знаний для понимания и генерации языков
Июль 2021 г.
12
-
Оценка больших языковых моделей, обученных на коде
Июнь 2021 г.
6
Модель генерации текста с авторегрессией и 6 миллиардами параметров, обученная на The Pile.
Июнь 2021 г.
198
CPM-2: крупномасштабные экономически эффективные предварительно обученные языковые модели
Апрель 2021 г.
13
PanGu-α: Крупномасштабные авторегрессионные модели китайского языка с предварительным обучением и автопараллельными вычислениями
Октябрь 2020 г.
13
mT5: Массовый многоязычный предварительно обученный преобразователь текста в текст
Июнь 2020 г.
-
Предварительное обучение по методу Denoising Sequence-to-Sequence для генерации, перевода и понимания естественного языка
Июнь 2020 г.
600
-
GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического чередования
Май 2020 г.
175
-
"Языковые модели - это обучаемые с небольшим числом примеров обучения."
Сентябрь 2019 г.
1.63
CTRL: Модель языка условных преобразований для управляемой генерации
Сентябрь 2019 г.
0.235
Lite BERT для самоконтролируемого обучения языковым репрезентациям
Июнь 2019 г.
-
Обобщенное авторегрессионное предварительное обучение для понимания и генерации языка
Октябрь 2019 года
0.06 - 11
Исследование пределов трансферного обучения с помощью унифицированного преобразователя текста в текст
Ноябрь 2019 г.
1.5
"Языковые модели - это многозадачные модели, обученные без учителя."
Июль 2019 г.
0.125 - 0.355
Надежно оптимизированный подход к предварительному обучению BERT
Октябрь 2018 г.
-
"Двунаправленные представления кодировщика на основе трансформеров"
Июнь 2018 г.
-
Улучшение понимания языка с помощью генеративного предварительного обучения
Данный раздел находится в стадии разработки.
Данные для этого раздела взяты из Papers with Code и из недавних работ Zhao et al. (2023).
Last updated