Введение
Когда вы только начинаете работать с AI, логика простая: берём самую новую модель от самого крупного провайдера — и вперёд. Но это ловушка. В конце 2025 года на рынке десятки LLM, каждая из которых сильна в своём: одни заточены под код, другие — под математику, третьи созданы для работы на собственной инфраструктуре.
В этом разборе — структурированный мастер-класс от Marina Wyss, старшего прикладного учёного из Twitch/Amazon. Мы разберём, что делает модели разными, какие существуют топовые и специализированные модели на конец 2025 года, и главное — как выбрать правильную под конкретный сценарий.
Часть 1: Что делает LLM уникальной?
Три фактора определяют «характер» и возможности любой языковой модели.
1. Архитектура
Все современные LLM строятся на трансформерной архитектуре — это прорыв, запустивший нынешнюю AI-революцию. Трансформер обрабатывает целые последовательности параллельно (а не слово за словом) и использует механизм self-attention: модель взвешивает важность разных слов в контексте, улавливая сложные связи на длинных текстах.
Но внутри этой рамки — важные различия:
| Подход | Как работает | Примеры |
|---|---|---|
| Dense (плотные) | Активируют все параметры на каждый запрос — как использовать весь мозг для каждой мысли | GPT, Claude |
| MoE (Mixture of Experts) | Выборочно активируют «экспертные» подсети под тип задачи. Позволяют масштабироваться до огромных размеров при низком вычислительном расходе на запрос | Gemini, Mistral, Llama 4 |
| Router-based (GPT-5) | Автоматически переключается между разными моделями по сложности задачи: простые → быстрая модель, сложные → модель глубокого рассуждения | GPT-5 |
| Reasoning-first (DeepSeek) | Мощная базовая модель + масштабная оптимизация предпочтений для явного многошагового рассуждения. Два эндпоинта: reasoning (медленный, точный) и fast (низкая задержка) | DeepSeek |
Контекстные окна — ещё одна ось различий. Диапазон: от 128 тысяч токенов до 10 миллионов (Llama 4 Scout).
2. Обучающие данные
Это, пожалуй, главный дифференциатор — именно тренировочные данные определяют, в чём модель сильна.
| Модель | На чём обучалась | Следствие |
|---|---|---|
| GPT-5 | Огромный микс: интернет, книги, научные статьи | Хороший универсал — разбирается в чём угодно |
| Gemini | Триллионы текстовых токенов + видеокадры + аудио | Сильное нативное мультимодальное понимание |
| Claude | Акцент на качественном коде и структурированных документах | Техническая точность и следование сложным инструкциям |
| Grok | Реальный поток данных X-платформы (Twitter) | Актуальный, неотфильтрованный взгляд на текущие события |
| Llama 4 | Текст, изображения, данные социальных платформ Meta | Сбалансированные мультимодальные возможности |
| DeepSeek | Широкий веб-текст + тяжёлый акцент на код, математику, двуязычный китайско-английский контент | Сила в символьных операциях, конкурентном программировании |
3. Файнтюнинг и выравнивание (Alignment)
После базового обучения идёт фаза специализации — именно здесь модели обретают свой «характер».
Три основных метода:
- SFT (Supervised Fine-Tuning) — модель учится на кураторских парах «инструкция → идеальный ответ». Учит следовать задачам.
- RLHF (Reinforcement Learning from Human Feedback) — люди-оценщики ранжируют ответы модели, модель учится предпочитать высоко оценённые. Выравнивает поведение под человеческие ценности.
- DPO (Direct Preference Optimization) — более новая и стабильная альтернатива RLHF. Оптимизирует напрямую по данным предпочтений без отдельной reward-модели. Быстрее, требует меньше вычислений, всё шире применяется в 2025.
Разные философии выравнивания — разные «характеры»:
| Компания | Подход | Результат |
|---|---|---|
| Anthropic | Constitutional AI: модель учится из набора этических принципов | Claude осторожный, ориентированный на безопасность — иногда чрезмерно |
| OpenAI | RLHF + router-система: двухуровневое выравнивание | Баланс между возможностями и безопасностью разных типов задач |
| xAI | В 10× больше RL-вычислений, чем у конкурентов, но минимальная контентная фильтрация | Grok мощно выровнен через compute, но менее ограничен в темах — более «живой» и неотфильтрованный |
| DeepSeek | Оптимизация корректности на математике, логике, коде | Прямые, без лишней многословности ответы |
Вывод: из-за разного alignment Claude может отказаться от того, что GPT-5 ответит, а Grok может выдать то, от чего другие откажутся.
Часть 2: Лицензирование — важнее, чем вы думаете
Большинство разработчиков игнорируют этот вопрос — и потом спотыкаются. Marina Wyss настаивает: сначала лицензия, потом технические характеристики.
Три категории:
1. Closed API (закрытые) Веса модели недоступны — вы арендуете доступ через API.
- GPT-5, Claude, Gemini, Grok
- Плюс: просто, без инфраструктурных забот
- Минус: данные уходят на сервера вендора, нет контроля над весами
2. Open Weight (открытые веса) Веса можно скачать, но лицензия накладывает ограничения.
- Llama (Meta) — нельзя использовать, если у вас более 700 млн активных пользователей в месяц; конкуренты Meta не могут использовать
- Часть DeepSeek-чекпоинтов — openweight с кастомными условиями
⚠️ Open weight ≠ open source. Скачать веса не значит использовать как угодно.
3. OSI Open (настоящий open source) Стандартные open source лицензии: Apache 2.0, MIT, BSD. Минимум ограничений.
- Большинство моделей Mistral, Falcon, часть Kimi, часть DeepSeek-вариантов
Почему это критично:
| Аспект | Closed API | Open Weight | OSI Open |
|---|---|---|---|
| Юридическая безопасность | Зависит от ToS вендора | Читайте мелкий шрифт | Чисто |
| Приватность данных | Данные на серверах вендора | Можно держать всё in-house | Полный контроль |
| Кастомизация | Только промпт-инжиниринг | Полный файнтюнинг | Полный файнтюнинг |
| Стоимость | Оплата за токен, нет инфраструктуры | Инфраструктурные инвестиции, дёшево в масштабе | То же |
| Качество | Frontier-модели всё ещё лидируют | Быстро догоняют | Быстро догоняют |
Часть 3: Обзор топовых frontier-моделей
⚠️ Предупреждение о бенчмарках: большинство публикуются самими вендорами и не являются прямым сравнением. Разные тесты — разные методологии, разные условия. Не доверяйте лидербордам слепо.
GPT-5 (OpenAI)
Лучший для: универсальных задач, креативного письма, красивых UI, health-запросов
Контекст: 400 000 токенов
Архитектура: router-based — автоматически выбирает нужную sub-модель
Ограничения: иногда многословен; некоторые пользователи замечают непоследовательное качество из-за автоматического переключения моделей
Claude Sonnet 4.5 (Anthropic)
Вышел: сентябрь 2025
Лучший для: разработки ПО, агентных воркфлоу, десктопной автоматизации, профессионального письма
Архитектура: большая модель с MoE-эффективностью
Ограничения: может быть избыточно осторожным; стоимость выше большинства конкурентов
Подробнее о противостоянии Claude vs GPT-5: GPT-5.5 против Claude - новый раунд битвы гигантов
Llama 4 (Meta)
Лучший для: on-prem развёртывания, корпоративных решений, обработки огромных документов
Три варианта:
- Scout — 109 млрд параметров, контекст 10 млн токенов. Помещается на одну GPU H100 с INT4-квантизацией — frontier-качество, которое можно запустить самостоятельно
- Maverick — мощнее, требует больше ресурсов
- Behemoth — самый мощный вариант
Важно: Llama 4 — open weight, не OSI open. Лицензионные ограничения есть.
Ограничения: требует технической экспертизы для деплоя
Grok 4 (xAI)
Вышел: июль 2025
Лучший для: математических и научных рассуждений; задач, требующих актуальных данных из X/Twitter
Grok 4 Fast: ~500 млрд параметров, контекст 2 млн токенов
Ограничения: менее отфильтрован (плюс или минус — зависит от задачи); глубокая интеграция с X-платформой, мало независимых интеграций
На горизонте: Grok 5 в конце 2025 — xAI описывает его как «crushingly good»
DeepSeek (DeepSeek)
Лучший для: математики, логики, кода; задач, где нужна агрессивная оптимизация стоимости
Два режима: reasoning-эндпоинт (медленнее, точнее для сложных задач) и fast-эндпоинт (низкая задержка для общих запросов)
Контекст: сотни тысяч токенов на стандартных эндпоинтах
Цена: заметно ниже конкурентов
Лицензирование: микс open weight и OSI open — уточняйте для конкретного варианта
Gemini 2.5 Pro (Google)
Лучший для: анализа данных с огромными датасетами; research-задач с гигантскими контекстами; глубокой интеграции с экосистемой Google (Search, Maps и т.д.)
Контекст: до 1 млн токенов, более крупные окна доступны в preview
Нативная мультимодальность: текст, изображения, видео, аудио
Ограничения: немного уступает Claude и GPT-5 в чистом программировании
На горизонте: Gemini 3 в Q4 2025 со значительными улучшениями в коде
Подробнее про Gemini: 21 неожиданный способ использовать Gemini - полное руководство по функциям
Часть 4: Специализированные модели
Большая ошибка — думать, что «чем больше модель, тем лучше». Маленькая специализированная модель часто выигрывает за долю цены.
Mistral
Философия: 90% производительности за 10% стоимости.
| Модель | Параметры | Лицензия | Для чего |
|---|---|---|---|
| Mistral 3 Medium | — | — | Близко к Claude Sonnet 3.7, экономно, работает на 4 GPU |
| Mistral Small 3.1 | 24 млрд | Apache 2.0 | 150 токенов/сек — high-throughput: боты поддержки |
Cohere Command
Философия: enterprise с сильным соответствием требованиям.
| Модель | Контекст | Особенность |
|---|---|---|
| Command R+ | 128K токенов | Q&A с цитатами, мультиязычность — корпоративные чат-боты |
| Command A (март 2025) | 256K токенов | Рассуждения, перевод на 23 языка, vision |
Moonshot Kimi
Специализация: агентные воркфлоу.
- Kimi K2 — 1 трлн параметров MoE, open weights, built-for-agents: real-time веб-поиск, мультимодальность, архитектура для self-reflection
- Kimi Dev 72B — поставил рекорд на SWE-bench среди open-моделей. Отличный выбор для автономных research-агентов: поиск + код + верификация
Qwen (Alibaba)
Философия: мощные open-weight альтернативы.
| Модель | Параметры | Лицензия | Особенность |
|---|---|---|---|
| Qwen 2.5 (линейка) | 0.5–72 млрд | Apache 2.0 (многие варианты) | 72B конкурирует с GPT-4 по многим бенчмаркам |
| Qwen 2.5 Coder | — | — | Оптимизирован для кода, сильная мультиязычная генерация |
Часть 5: Фреймворк выбора модели (Decision Matrix)
Шаг 1: Определите тип лицензии (первым делом)
Задайте себе эти вопросы:
| Вопрос | Если «Да» → |
|---|---|
| Есть ли у вас персональные данные клиентов (PII/PHI)? | On-prem open weight или closed с enterprise-соглашением |
| Нужен файнтюнинг на собственных данных? | Open source (Mistral, Kimi) или open weight (Llama) — closed не даст нужного контроля |
| Маленькая команда, нужна скорость запуска? | Closed API (GPT-5, Claude, Gemini, DeepSeek) — быстро в продакшн, провалидировали PMF → пересмотрите позже |
| Работаете в масштабе с бюджетными ограничениями? | Роутер: 80% запросов → open models, 20% сложных → closed |
Шаг 2: Определите требования
По сложности задачи:
| Тип задачи | Подходящие модели |
|---|---|
| Простые запросы (FAQ, классификация) | Mistral Small, DeepSeek Fast |
| Средняя сложность (написание, базовый код) | Mistral Medium, GPT-5 Fast mode |
| Сложные рассуждения (математика, research) | Grok 4, GPT-5 Reasoning, DeepSeek Reasoning |
| Агентные воркфлоу | Kimi K2, Claude Sonnet 4.5 |
По размеру контекста:
| Нужный контекст | Выбор |
|---|---|
| < 128K токенов | Любая модель |
| 128K – 1M токенов | Большинство frontier-моделей |
| 1–2M токенов | Gemini, Grok, Llama Maverick |
| > 2M токенов | Llama 4 Scout (до 10M) |
По типу деплоя:
| Деплой | Модели |
|---|---|
| Cloud API | GPT-5, Claude, Gemini, DeepSeek, Grok |
| Self-hosted | Llama, Mistral, Kimi, DeepSeek Open Weight |
| Edge / Local | Quantized Mistral 7B |
Шаг 3: Постройте evaluation pipeline
Никогда не доверяйте публичным бенчмаркам полностью — они не тестируют ваш конкретный кейс.
Создайте тестовый набор (20–50 примеров минимум, цель — 300+):
- Типичные запросы, которые система должна хорошо обработать
- Edge cases — граничные и нетипичные случаи
- Out-of-scope запросы — то, с чем система не должна работать
- Ошибки пользователей: опечатки, неясные формулировки
Критерии оценки:
| Критерий | Описание |
|---|---|
| Точность / фактическая корректность | Главная метрика для большинства приложений |
| Качество / полезность | Технически верный, но бесполезный ответ — плохой ответ |
| Соответствие формату | Если нужен JSON — получаете валидный JSON? |
| Скорость | Время ответа — насколько критично для вашего кейса |
Обязательно: создайте рубрику с примерами — как выглядит ответ на 4/5? На 2/5? Без этого оценки непоследовательны.
Методы оценки:
| Метод | Когда использовать | Плюсы / Минусы |
|---|---|---|
| Exact match | Простые задачи (multiple choice, извлечение данных) | Надёжно, но только для однозначных ответов |
| Lexical similarity (BLEU, ROUGE) | Когда есть эталонные ответы | Нужны эталоны; высокое совпадение ≠ высокое качество |
| Semantic similarity | Большинство гибких задач | Эмбеддит тексты и сравнивает через cosine similarity; не требует точных эталонов |
| AI judges (GPT-5 / Claude как судья) | Быстро, дёшево, без эталонных данных | Хорошо коррелирует с человеческими оценками; нужна хорошая промптизация + temperature=0 для воспроизводимости |
По AI judges: используйте few-shot примеры (хороший и плохой ответ), установите temperature=0, рассмотрите запуск нескольких оценок с усреднением.
Шаг 4: Рассчитайте реальную стоимость
Для API-моделей:
Стоимость = (входные токены × цена за входной токен
+ выходные токены × цена за выходной токен)
× месячный объём
Для open weight моделей:
- Стоимость GPU (аренда или покупка)
- Инженерное время и зарплаты команды
- Операционные расходы: мониторинг, поддержка, обновления
Дорого при малых объёмах → выгодно при высоких нагрузках.
Часть 6: Взгляд в будущее (конец 2025)
| Модель | Ожидаемое | Фокус |
|---|---|---|
| Grok 5 | До конца 2025 | Обучается на Colossus 2 — первый суперкомпьютер с мощностью 1+ гигаватт. xAI описывает как «crushingly good», фокус на AGI |
| Gemini 3 | Q4 2025 | Значительные улучшения в программировании + расширенные мультимодальные возможности |
Итог: короткий алгоритм выбора
1. Есть PII/PHI или нужен файнтюнинг? → Open weight или enterprise closed
2. Маленькая команда, нужна скорость? → Closed API, идите в продакшн
3. Работаете в масштабе? → Роутер: open для рутины, closed для сложного
4. Определите контекстное окно
5. Определите тип задачи (код / рассуждения / агенты / мультимодаль)
6. Создайте тестовый набор из ВАШЕГО домена
7. Прогоните 2–3 кандидата через evaluation pipeline
8. Посчитайте реальную стоимость при вашем объёме
9. Выберите модель — и планируйте пересмотр через 3–6 месяцев
Рынок меняется быстро. Нет «правильного выбора навсегда» — есть правильный выбор сейчас, для вашего кейса.
Источник: Large Language Model Selection Masterclass — Marina Wyss (ноябрь 2025)