Коллекция LLM

В данном разделе представлен сборник и краткое описание ключевых и фундаментальных языковых моделей (LLM).

Модели

Модель

Дата выхода

Размер(B)

Чекпоинты

Description

Falcon LLM

Май 2023 г.

7, 40

Falcon-7B(opens in a new tab), Falcon-40B

Falcon LLM - это фундаментальная большая языковая модель (LLM) с 40 миллиардами параметров, обученная на одном триллионе токенов. Компания TII выпустила Falcon LLM - 40-битную модель.

PaLM 2

Май 2023 г.

Языковая модель, обладающая лучшими многоязыковыми и аргументационными возможностями и более высокой вычислительной эффективностью, чем ее предшественница PaLM.

Med-PaLM 2

Май 2023 г.

"К достижению экспертного уровня в ответах на медицинские вопросы с использованием больших языковых моделей"

Gorilla

Май 2023 г.

Gorilla

Gorilla: Большая языковая модель, связанная с массивными API

RedPajama-INCITE

Май 2023 г.

3, 7

RedPajama-INCITE

Семейство моделей, включающее базовую, настраиваемую по инструкции и чат-модели.

LIMA

Май 2023 г.

Языковая модель LLaMa с 65 параметрами, настроенная с помощью стандартных потерь при супервизии всего на 1000 тщательно отобранных подсказках и ответах, без какого-либо обучения с подкреплением или моделирования предпочтений человека.

Replit Code

Май 2023 г.

Replit Code

Модель replit-code-v1-3b представляет собой 2.7B LLM, обученный на 20 языках из набора данных Stack Dedup v1.2.

h2oGPT

Май 2023 г.

h2oGPT

h2oGPT - это фреймворк для тонкой настройки большой языковой модели (LLM) и пользовательский интерфейс чатбота с функцией "вопрос-ответ" для документов.

CodeGen2

Май 2023 г.

1, 3, 7, 16

CodeGen2

Модели кода для синтеза программ.

CodeT5 and CodeT5+

Май 2023 г.

CodeT5

Модели CodeT5 и CodeT5+ для понимания и генерации кода от Salesforce Research.

StarCoder

Май 2023 г.

StarCoder

StarCoder: Современный LLM для кода

MPT-7B

Май 2023 г.

MPT-7B

MPT-7B - это модель в стиле GPT, первая в серии моделей MosaicML Foundation.

DLite

Май 2023 г.

0.124 - 1.5

DLite-v2-1.5B

Облегченные модели следования инструкциям, демонстрирующие интерактивность, подобную ChatGPT.

Dolly

Апрель 2023 г.

3, 7, 12

Dolly

LLM, работающий по инструкции, отлаженный на базе данных инструкций, созданных человеком, лицензированной для исследовательского и коммерческого использования.

StableLM

Апрель 2023 г.

3, 7

StableLM-Alpha

Серия языковых моделей StableLM компании Stability AI

Pythia

Апрель 2023 г.

0.070 - 12

Pythia

Набор из 16 LLM, обученных на общедоступных данных, представленных в точно таком же порядке и имеющих размер от 70М до 12Б параметров.

Open Assistant (Pythia Family)

Март 2023 г.

Open Assistant

OpenAssistant - это чат-ассистент, который понимает задачи, может взаимодействовать со сторонними системами и динамически получать для этого информацию.

Cerebras-GPT

Март 2023 г.

0.111 - 13

Cerebras-GPT

"Cerebras-GPT: Обучение оптимальных языковых моделей с использованием вычислительного кластера Cerebras на вафельной плате"

BloombergGPT

Март 2023 г.

BloombergGPT: Большая языковая модель для финансов

PanGu-Σ

Март 2023 г.

1085

PanGu-Σ: К модели языка с триллионом параметров с помощью разреженных гетерогенных вычислений

GPT-4

Март 2023 г.

Технический отчет GPT-4

LLaMA

Февраль 2023 г.

7, 13, 33, 65

LLaMA

LLaMA: открытые и эффективные базовые языковые модели

ChatGPT

Ноябрь 2022 г.

Модель под названием ChatGPT, которая взаимодействует в диалоговом режиме. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.

Galactica

Ноябрь 2022 г.

0.125 - 120

Galactica

Galactica:Большая языковая модель для науки

mT0

Ноябрь 2022 г.

mT0-xxl

Межъязыковая генерализация через многозадачную настройку

BLOOM

Ноябрь 2022 г.

176

BLOOM

BLOOM: 176B-параметрическая многоязычная модель с открытым доступом

U-PaLM

Октябрь 2022 г.

540

Преодоление законов масштабирования с помощью 0,1% дополнительных вычислений

UL2

Октябрь 2022 г.

UL2, Flan-UL2

UL2: Объединение парадигм обучения иностранным языкам

Sparrow

Сентябрь 2022 г.

Улучшение согласованности диалоговых агентов с помощью целевых человеческих оценок

Flan-T5

Октябрь 2022 г.

Flan-T5-xxl

Масштабирование языковых моделей, ориентированных на обучение

AlexaTM

Август 2022 г.

AlexaTM 20B: обучение по нескольким снимкам с использованием крупномасштабной многоязычной модели Seq2Seq

GLM-130B

Октябрь 2022 г.

130

GLM-130B

GLM-130B: открытая двуязычная предварительно обученная модель

OPT-IML

Декабрь 2022 г.

30, 175

OPT-IML

OPT-IML: масштабирование метаобучения языковых моделей через призму обобщения

OPT

Май 2022 г.

175

OPT-13B, OPT-66B

OPT: Открытые предварительно обученные трансформаторные языковые модели

PaLM

Апрель 2022 г.

540

PaLM: масштабирование моделирования языка с помощью путей

Tk-Instruct

Апрель 2022 г.

Tk-Instruct-11B

Super-NaturalInstructions: Обобщение с помощью декларативных инструкций на 1600+ задач НЛП

GPT-NeoX-20B

Апрель 2022 г.

GPT-NeoX-20B

GPT-NeoX-20B: авторегрессионная модель языка с открытым исходным кодом

Chinchilla

Март 2022 г.

Показано, что при определенном вычислительном бюджете наилучшие показатели достигаются не за счет самых больших моделей, а за счет меньших моделей, обученных на большем количестве данных.

InstructGPT

Март 2022 г.

175

Обучение языковых моделей выполнению инструкций с обратной связью от человека

CodeGen

Март 2022 г.

0.350 - 16

CodeGen

CodeGen: Открытая модель большого языка для кода с многооборотным программным синтезом

AlphaCode

Февраль 2022 г.

Генерация кода на уровне соревнований с помощью AlphaCode

MT-NLG

Январь 2022 г.

530

Использование DeepSpeed и Megatron для обучения крупномасштабной генеративной модели языка Megatron-Turing NLG 530B

LaMDA

Январь 2022 г.

137

LaMDA: Языковые модели для диалоговых приложений

GLaM

Декабрь 2021 г.

1200

GLaM: Эффективное масштабирование языковых моделей с использованием смеси экспертов

Gopher

Декабрь 2021 г.

280

Масштабирование языковых моделей: Методы, анализ и выводы из обучения Gopher

WebGPT

Декабрь 2021 г.

175

WebGPT: Браузерный поиск ответов на вопросы с обратной связью

Yuan 1.0

Октябрь 2021 г.

245

Юань 1.0: Крупномасштабная предварительно обученная языковая модель при обучении с нулевым и малым количеством кадров

Октябрь 2021 г.

Многозадачное обучение с подсказками обеспечивает генерализацию задач с нулевым результатом

FLAN

Сентябрь 2021 г.

137

Тонко настроенные языковые модели являются нулевыми обучаемыми

HyperCLOVA

Сентябрь 2021 г.

Какие изменения могут принести крупномасштабные языковые модели? Интенсивное исследование HyperCLOVA: миллиардные генеративные предварительно обученные трансформаторы корейского языка

ERNIE 3.0 Titan

Июль 2021 г.

ERNIE 3.0 Titan: Исследование крупномасштабного предварительного обучения с расширением знаний для понимания и генерации языка

Jurassic-1

Август 2021 г.

178

Jurassic-1: технические подробности и оценка

ERNIE 3.0

Июль 2021 г.

ERNIE 3.0: Крупномасштабное предварительное обучение с расширением знаний для понимания и генерации языков

Codex

Июль 2021 г.