Введение

Когда вы только начинаете работать с AI, логика простая: берём самую новую модель от самого крупного провайдера — и вперёд. Но это ловушка. В конце 2025 года на рынке десятки LLM, каждая из которых сильна в своём: одни заточены под код, другие — под математику, третьи созданы для работы на собственной инфраструктуре.

В этом разборе — структурированный мастер-класс от Marina Wyss, старшего прикладного учёного из Twitch/Amazon. Мы разберём, что делает модели разными, какие существуют топовые и специализированные модели на конец 2025 года, и главное — как выбрать правильную под конкретный сценарий.


Часть 1: Что делает LLM уникальной?

Три фактора определяют «характер» и возможности любой языковой модели.


1. Архитектура

Все современные LLM строятся на трансформерной архитектуре — это прорыв, запустивший нынешнюю AI-революцию. Трансформер обрабатывает целые последовательности параллельно (а не слово за словом) и использует механизм self-attention: модель взвешивает важность разных слов в контексте, улавливая сложные связи на длинных текстах.

Но внутри этой рамки — важные различия:

ПодходКак работаетПримеры
Dense (плотные)Активируют все параметры на каждый запрос — как использовать весь мозг для каждой мыслиGPT, Claude
MoE (Mixture of Experts)Выборочно активируют «экспертные» подсети под тип задачи. Позволяют масштабироваться до огромных размеров при низком вычислительном расходе на запросGemini, Mistral, Llama 4
Router-based (GPT-5)Автоматически переключается между разными моделями по сложности задачи: простые → быстрая модель, сложные → модель глубокого рассужденияGPT-5
Reasoning-first (DeepSeek)Мощная базовая модель + масштабная оптимизация предпочтений для явного многошагового рассуждения. Два эндпоинта: reasoning (медленный, точный) и fast (низкая задержка)DeepSeek

Контекстные окна — ещё одна ось различий. Диапазон: от 128 тысяч токенов до 10 миллионов (Llama 4 Scout).


2. Обучающие данные

Это, пожалуй, главный дифференциатор — именно тренировочные данные определяют, в чём модель сильна.

МодельНа чём обучаласьСледствие
GPT-5Огромный микс: интернет, книги, научные статьиХороший универсал — разбирается в чём угодно
GeminiТриллионы текстовых токенов + видеокадры + аудиоСильное нативное мультимодальное понимание
ClaudeАкцент на качественном коде и структурированных документахТехническая точность и следование сложным инструкциям
GrokРеальный поток данных X-платформы (Twitter)Актуальный, неотфильтрованный взгляд на текущие события
Llama 4Текст, изображения, данные социальных платформ MetaСбалансированные мультимодальные возможности
DeepSeekШирокий веб-текст + тяжёлый акцент на код, математику, двуязычный китайско-английский контентСила в символьных операциях, конкурентном программировании

3. Файнтюнинг и выравнивание (Alignment)

После базового обучения идёт фаза специализации — именно здесь модели обретают свой «характер».

Три основных метода:

  • SFT (Supervised Fine-Tuning) — модель учится на кураторских парах «инструкция → идеальный ответ». Учит следовать задачам.
  • RLHF (Reinforcement Learning from Human Feedback) — люди-оценщики ранжируют ответы модели, модель учится предпочитать высоко оценённые. Выравнивает поведение под человеческие ценности.
  • DPO (Direct Preference Optimization) — более новая и стабильная альтернатива RLHF. Оптимизирует напрямую по данным предпочтений без отдельной reward-модели. Быстрее, требует меньше вычислений, всё шире применяется в 2025.

Разные философии выравнивания — разные «характеры»:

КомпанияПодходРезультат
AnthropicConstitutional AI: модель учится из набора этических принциповClaude осторожный, ориентированный на безопасность — иногда чрезмерно
OpenAIRLHF + router-система: двухуровневое выравниваниеБаланс между возможностями и безопасностью разных типов задач
xAIВ 10× больше RL-вычислений, чем у конкурентов, но минимальная контентная фильтрацияGrok мощно выровнен через compute, но менее ограничен в темах — более «живой» и неотфильтрованный
DeepSeekОптимизация корректности на математике, логике, кодеПрямые, без лишней многословности ответы

Вывод: из-за разного alignment Claude может отказаться от того, что GPT-5 ответит, а Grok может выдать то, от чего другие откажутся.


Часть 2: Лицензирование — важнее, чем вы думаете

Большинство разработчиков игнорируют этот вопрос — и потом спотыкаются. Marina Wyss настаивает: сначала лицензия, потом технические характеристики.

Три категории:

1. Closed API (закрытые) Веса модели недоступны — вы арендуете доступ через API.

  • GPT-5, Claude, Gemini, Grok
  • Плюс: просто, без инфраструктурных забот
  • Минус: данные уходят на сервера вендора, нет контроля над весами

2. Open Weight (открытые веса) Веса можно скачать, но лицензия накладывает ограничения.

  • Llama (Meta) — нельзя использовать, если у вас более 700 млн активных пользователей в месяц; конкуренты Meta не могут использовать
  • Часть DeepSeek-чекпоинтов — openweight с кастомными условиями

⚠️ Open weight ≠ open source. Скачать веса не значит использовать как угодно.

3. OSI Open (настоящий open source) Стандартные open source лицензии: Apache 2.0, MIT, BSD. Минимум ограничений.

  • Большинство моделей Mistral, Falcon, часть Kimi, часть DeepSeek-вариантов

Почему это критично:

АспектClosed APIOpen WeightOSI Open
Юридическая безопасностьЗависит от ToS вендораЧитайте мелкий шрифтЧисто
Приватность данныхДанные на серверах вендораМожно держать всё in-houseПолный контроль
КастомизацияТолько промпт-инжинирингПолный файнтюнингПолный файнтюнинг
СтоимостьОплата за токен, нет инфраструктурыИнфраструктурные инвестиции, дёшево в масштабеТо же
КачествоFrontier-модели всё ещё лидируютБыстро догоняютБыстро догоняют

Часть 3: Обзор топовых frontier-моделей

⚠️ Предупреждение о бенчмарках: большинство публикуются самими вендорами и не являются прямым сравнением. Разные тесты — разные методологии, разные условия. Не доверяйте лидербордам слепо.


GPT-5 (OpenAI)

Лучший для: универсальных задач, креативного письма, красивых UI, health-запросов
Контекст: 400 000 токенов
Архитектура: router-based — автоматически выбирает нужную sub-модель
Ограничения: иногда многословен; некоторые пользователи замечают непоследовательное качество из-за автоматического переключения моделей


Claude Sonnet 4.5 (Anthropic)

Вышел: сентябрь 2025
Лучший для: разработки ПО, агентных воркфлоу, десктопной автоматизации, профессионального письма
Архитектура: большая модель с MoE-эффективностью
Ограничения: может быть избыточно осторожным; стоимость выше большинства конкурентов

Подробнее о противостоянии Claude vs GPT-5: GPT-5.5 против Claude - новый раунд битвы гигантов


Llama 4 (Meta)

Лучший для: on-prem развёртывания, корпоративных решений, обработки огромных документов
Три варианта:

  • Scout — 109 млрд параметров, контекст 10 млн токенов. Помещается на одну GPU H100 с INT4-квантизацией — frontier-качество, которое можно запустить самостоятельно
  • Maverick — мощнее, требует больше ресурсов
  • Behemoth — самый мощный вариант

Важно: Llama 4 — open weight, не OSI open. Лицензионные ограничения есть.
Ограничения: требует технической экспертизы для деплоя


Grok 4 (xAI)

Вышел: июль 2025
Лучший для: математических и научных рассуждений; задач, требующих актуальных данных из X/Twitter
Grok 4 Fast: ~500 млрд параметров, контекст 2 млн токенов
Ограничения: менее отфильтрован (плюс или минус — зависит от задачи); глубокая интеграция с X-платформой, мало независимых интеграций
На горизонте: Grok 5 в конце 2025 — xAI описывает его как «crushingly good»


DeepSeek (DeepSeek)

Лучший для: математики, логики, кода; задач, где нужна агрессивная оптимизация стоимости
Два режима: reasoning-эндпоинт (медленнее, точнее для сложных задач) и fast-эндпоинт (низкая задержка для общих запросов)
Контекст: сотни тысяч токенов на стандартных эндпоинтах
Цена: заметно ниже конкурентов
Лицензирование: микс open weight и OSI open — уточняйте для конкретного варианта


Gemini 2.5 Pro (Google)

Лучший для: анализа данных с огромными датасетами; research-задач с гигантскими контекстами; глубокой интеграции с экосистемой Google (Search, Maps и т.д.)
Контекст: до 1 млн токенов, более крупные окна доступны в preview
Нативная мультимодальность: текст, изображения, видео, аудио
Ограничения: немного уступает Claude и GPT-5 в чистом программировании
На горизонте: Gemini 3 в Q4 2025 со значительными улучшениями в коде

Подробнее про Gemini: 21 неожиданный способ использовать Gemini - полное руководство по функциям


Часть 4: Специализированные модели

Большая ошибка — думать, что «чем больше модель, тем лучше». Маленькая специализированная модель часто выигрывает за долю цены.

Mistral

Философия: 90% производительности за 10% стоимости.

МодельПараметрыЛицензияДля чего
Mistral 3 MediumБлизко к Claude Sonnet 3.7, экономно, работает на 4 GPU
Mistral Small 3.124 млрдApache 2.0150 токенов/сек — high-throughput: боты поддержки

Cohere Command

Философия: enterprise с сильным соответствием требованиям.

МодельКонтекстОсобенность
Command R+128K токеновQ&A с цитатами, мультиязычность — корпоративные чат-боты
Command A (март 2025)256K токеновРассуждения, перевод на 23 языка, vision

Moonshot Kimi

Специализация: агентные воркфлоу.

  • Kimi K2 — 1 трлн параметров MoE, open weights, built-for-agents: real-time веб-поиск, мультимодальность, архитектура для self-reflection
  • Kimi Dev 72B — поставил рекорд на SWE-bench среди open-моделей. Отличный выбор для автономных research-агентов: поиск + код + верификация

Qwen (Alibaba)

Философия: мощные open-weight альтернативы.

МодельПараметрыЛицензияОсобенность
Qwen 2.5 (линейка)0.5–72 млрдApache 2.0 (многие варианты)72B конкурирует с GPT-4 по многим бенчмаркам
Qwen 2.5 CoderОптимизирован для кода, сильная мультиязычная генерация

Часть 5: Фреймворк выбора модели (Decision Matrix)

Шаг 1: Определите тип лицензии (первым делом)

Задайте себе эти вопросы:

ВопросЕсли «Да» →
Есть ли у вас персональные данные клиентов (PII/PHI)?On-prem open weight или closed с enterprise-соглашением
Нужен файнтюнинг на собственных данных?Open source (Mistral, Kimi) или open weight (Llama) — closed не даст нужного контроля
Маленькая команда, нужна скорость запуска?Closed API (GPT-5, Claude, Gemini, DeepSeek) — быстро в продакшн, провалидировали PMF → пересмотрите позже
Работаете в масштабе с бюджетными ограничениями?Роутер: 80% запросов → open models, 20% сложных → closed

Шаг 2: Определите требования

По сложности задачи:

Тип задачиПодходящие модели
Простые запросы (FAQ, классификация)Mistral Small, DeepSeek Fast
Средняя сложность (написание, базовый код)Mistral Medium, GPT-5 Fast mode
Сложные рассуждения (математика, research)Grok 4, GPT-5 Reasoning, DeepSeek Reasoning
Агентные воркфлоуKimi K2, Claude Sonnet 4.5

По размеру контекста:

Нужный контекстВыбор
< 128K токеновЛюбая модель
128K – 1M токеновБольшинство frontier-моделей
1–2M токеновGemini, Grok, Llama Maverick
> 2M токеновLlama 4 Scout (до 10M)

По типу деплоя:

ДеплойМодели
Cloud APIGPT-5, Claude, Gemini, DeepSeek, Grok
Self-hostedLlama, Mistral, Kimi, DeepSeek Open Weight
Edge / LocalQuantized Mistral 7B

Шаг 3: Постройте evaluation pipeline

Никогда не доверяйте публичным бенчмаркам полностью — они не тестируют ваш конкретный кейс.

Создайте тестовый набор (20–50 примеров минимум, цель — 300+):

  • Типичные запросы, которые система должна хорошо обработать
  • Edge cases — граничные и нетипичные случаи
  • Out-of-scope запросы — то, с чем система не должна работать
  • Ошибки пользователей: опечатки, неясные формулировки

Критерии оценки:

КритерийОписание
Точность / фактическая корректностьГлавная метрика для большинства приложений
Качество / полезностьТехнически верный, но бесполезный ответ — плохой ответ
Соответствие форматуЕсли нужен JSON — получаете валидный JSON?
СкоростьВремя ответа — насколько критично для вашего кейса

Обязательно: создайте рубрику с примерами — как выглядит ответ на 4/5? На 2/5? Без этого оценки непоследовательны.

Методы оценки:

МетодКогда использоватьПлюсы / Минусы
Exact matchПростые задачи (multiple choice, извлечение данных)Надёжно, но только для однозначных ответов
Lexical similarity (BLEU, ROUGE)Когда есть эталонные ответыНужны эталоны; высокое совпадение ≠ высокое качество
Semantic similarityБольшинство гибких задачЭмбеддит тексты и сравнивает через cosine similarity; не требует точных эталонов
AI judges (GPT-5 / Claude как судья)Быстро, дёшево, без эталонных данныхХорошо коррелирует с человеческими оценками; нужна хорошая промптизация + temperature=0 для воспроизводимости

По AI judges: используйте few-shot примеры (хороший и плохой ответ), установите temperature=0, рассмотрите запуск нескольких оценок с усреднением.


Шаг 4: Рассчитайте реальную стоимость

Для API-моделей:

Стоимость = (входные токены × цена за входной токен 
           + выходные токены × цена за выходной токен) 
           × месячный объём

Для open weight моделей:

  • Стоимость GPU (аренда или покупка)
  • Инженерное время и зарплаты команды
  • Операционные расходы: мониторинг, поддержка, обновления

Дорого при малых объёмах → выгодно при высоких нагрузках.


Часть 6: Взгляд в будущее (конец 2025)

МодельОжидаемоеФокус
Grok 5До конца 2025Обучается на Colossus 2 — первый суперкомпьютер с мощностью 1+ гигаватт. xAI описывает как «crushingly good», фокус на AGI
Gemini 3Q4 2025Значительные улучшения в программировании + расширенные мультимодальные возможности

Итог: короткий алгоритм выбора

1. Есть PII/PHI или нужен файнтюнинг? → Open weight или enterprise closed
2. Маленькая команда, нужна скорость? → Closed API, идите в продакшн
3. Работаете в масштабе? → Роутер: open для рутины, closed для сложного

4. Определите контекстное окно
5. Определите тип задачи (код / рассуждения / агенты / мультимодаль)

6. Создайте тестовый набор из ВАШЕГО домена
7. Прогоните 2–3 кандидата через evaluation pipeline
8. Посчитайте реальную стоимость при вашем объёме
9. Выберите модель — и планируйте пересмотр через 3–6 месяцев

Рынок меняется быстро. Нет «правильного выбора навсегда» — есть правильный выбор сейчас, для вашего кейса.


Источник: Large Language Model Selection Masterclass — Marina Wyss (ноябрь 2025)