Как выбрать LLM для вашего проекта: мастер-класс по подбору модели

Введение

Когда вы только начинаете работать с AI, логика простая: берём самую новую модель от самого крупного провайдера — и вперёд. Но это ловушка. В конце 2025 года на рынке десятки LLM, каждая из которых сильна в своём: одни заточены под код, другие — под математику, третьи созданы для работы на собственной инфраструктуре.

В этом разборе — структурированный мастер-класс от Marina Wyss, старшего прикладного учёного из Twitch/Amazon. Мы разберём, что делает модели разными, какие существуют топовые и специализированные модели на конец 2025 года, и главное — как выбрать правильную под конкретный сценарий.

Часть 1: Что делает LLM уникальной?

Три фактора определяют «характер» и возможности любой языковой модели.

1. Архитектура

Все современные LLM строятся на трансформерной архитектуре — это прорыв, запустивший нынешнюю AI-революцию. Трансформер обрабатывает целые последовательности параллельно (а не слово за словом) и использует механизм self-attention: модель взвешивает важность разных слов в контексте, улавливая сложные связи на длинных текстах.

Но внутри этой рамки — важные различия:

Подход	Как работает	Примеры
Dense (плотные)	Активируют все параметры на каждый запрос — как использовать весь мозг для каждой мысли	GPT, Claude
MoE (Mixture of Experts)	Выборочно активируют «экспертные» подсети под тип задачи. Позволяют масштабироваться до огромных размеров при низком вычислительном расходе на запрос	Gemini, Mistral, Llama 4
Router-based (GPT-5)	Автоматически переключается между разными моделями по сложности задачи: простые → быстрая модель, сложные → модель глубокого рассуждения	GPT-5
Reasoning-first (DeepSeek)	Мощная базовая модель + масштабная оптимизация предпочтений для явного многошагового рассуждения. Два эндпоинта: reasoning (медленный, точный) и fast (низкая задержка)	DeepSeek

Контекстные окна — ещё одна ось различий. Диапазон: от 128 тысяч токенов до 10 миллионов (Llama 4 Scout).

2. Обучающие данные

Это, пожалуй, главный дифференциатор — именно тренировочные данные определяют, в чём модель сильна.

Модель	На чём обучалась	Следствие
GPT-5	Огромный микс: интернет, книги, научные статьи	Хороший универсал — разбирается в чём угодно
Gemini	Триллионы текстовых токенов + видеокадры + аудио	Сильное нативное мультимодальное понимание
Claude	Акцент на качественном коде и структурированных документах	Техническая точность и следование сложным инструкциям
Grok	Реальный поток данных X-платформы (Twitter)	Актуальный, неотфильтрованный взгляд на текущие события
Llama 4	Текст, изображения, данные социальных платформ Meta	Сбалансированные мультимодальные возможности
DeepSeek	Широкий веб-текст + тяжёлый акцент на код, математику, двуязычный китайско-английский контент	Сила в символьных операциях, конкурентном программировании

3. Файнтюнинг и выравнивание (Alignment)

После базового обучения идёт фаза специализации — именно здесь модели обретают свой «характер».

Три основных метода:

SFT (Supervised Fine-Tuning) — модель учится на кураторских парах «инструкция → идеальный ответ». Учит следовать задачам.
RLHF (Reinforcement Learning from Human Feedback) — люди-оценщики ранжируют ответы модели, модель учится предпочитать высоко оценённые. Выравнивает поведение под человеческие ценности.
DPO (Direct Preference Optimization) — более новая и стабильная альтернатива RLHF. Оптимизирует напрямую по данным предпочтений без отдельной reward-модели. Быстрее, требует меньше вычислений, всё шире применяется в 2025.

Разные философии выравнивания — разные «характеры»:

Компания	Подход	Результат
Anthropic	Constitutional AI: модель учится из набора этических принципов	Claude осторожный, ориентированный на безопасность — иногда чрезмерно
OpenAI	RLHF + router-система: двухуровневое выравнивание	Баланс между возможностями и безопасностью разных типов задач
xAI	В 10× больше RL-вычислений, чем у конкурентов, но минимальная контентная фильтрация	Grok мощно выровнен через compute, но менее ограничен в темах — более «живой» и неотфильтрованный
DeepSeek	Оптимизация корректности на математике, логике, коде	Прямые, без лишней многословности ответы

Вывод: из-за разного alignment Claude может отказаться от того, что GPT-5 ответит, а Grok может выдать то, от чего другие откажутся.

Часть 2: Лицензирование — важнее, чем вы думаете

Большинство разработчиков игнорируют этот вопрос — и потом спотыкаются. Marina Wyss настаивает: сначала лицензия, потом технические характеристики.

Три категории:

1. Closed API (закрытые) Веса модели недоступны — вы арендуете доступ через API.

GPT-5, Claude, Gemini, Grok
Плюс: просто, без инфраструктурных забот
Минус: данные уходят на сервера вендора, нет контроля над весами

2. Open Weight (открытые веса) Веса можно скачать, но лицензия накладывает ограничения.

Llama (Meta) — нельзя использовать, если у вас более 700 млн активных пользователей в месяц; конкуренты Meta не могут использовать
Часть DeepSeek-чекпоинтов — openweight с кастомными условиями

⚠️ Open weight ≠ open source. Скачать веса не значит использовать как угодно.

3. OSI Open (настоящий open source) Стандартные open source лицензии: Apache 2.0, MIT, BSD. Минимум ограничений.

Большинство моделей Mistral, Falcon, часть Kimi, часть DeepSeek-вариантов

Почему это критично:

Аспект	Closed API	Open Weight	OSI Open
Юридическая безопасность	Зависит от ToS вендора	Читайте мелкий шрифт	Чисто
Приватность данных	Данные на серверах вендора	Можно держать всё in-house	Полный контроль
Кастомизация	Только промпт-инжиниринг	Полный файнтюнинг	Полный файнтюнинг
Стоимость	Оплата за токен, нет инфраструктуры	Инфраструктурные инвестиции, дёшево в масштабе	То же
Качество	Frontier-модели всё ещё лидируют	Быстро догоняют	Быстро догоняют

Часть 3: Обзор топовых frontier-моделей

⚠️ Предупреждение о бенчмарках: большинство публикуются самими вендорами и не являются прямым сравнением. Разные тесты — разные методологии, разные условия. Не доверяйте лидербордам слепо.

GPT-5 (OpenAI)

Лучший для: универсальных задач, креативного письма, красивых UI, health-запросов
Контекст: 400 000 токенов
Архитектура: router-based — автоматически выбирает нужную sub-модель
Ограничения: иногда многословен; некоторые пользователи замечают непоследовательное качество из-за автоматического переключения моделей

Claude Sonnet 4.5 (Anthropic)

Вышел: сентябрь 2025
Лучший для: разработки ПО, агентных воркфлоу, десктопной автоматизации, профессионального письма
Архитектура: большая модель с MoE-эффективностью
Ограничения: может быть избыточно осторожным; стоимость выше большинства конкурентов

Подробнее о противостоянии Claude vs GPT-5: GPT-5.5 против Claude - новый раунд битвы гигантов

Llama 4 (Meta)

Лучший для: on-prem развёртывания, корпоративных решений, обработки огромных документов
Три варианта:

Scout — 109 млрд параметров, контекст 10 млн токенов. Помещается на одну GPU H100 с INT4-квантизацией — frontier-качество, которое можно запустить самостоятельно
Maverick — мощнее, требует больше ресурсов
Behemoth — самый мощный вариант

Важно: Llama 4 — open weight, не OSI open. Лицензионные ограничения есть.
Ограничения: требует технической экспертизы для деплоя

Grok 4 (xAI)

Вышел: июль 2025
Лучший для: математических и научных рассуждений; задач, требующих актуальных данных из X/Twitter
Grok 4 Fast: ~500 млрд параметров, контекст 2 млн токенов
Ограничения: менее отфильтрован (плюс или минус — зависит от задачи); глубокая интеграция с X-платформой, мало независимых интеграций
На горизонте: Grok 5 в конце 2025 — xAI описывает его как «crushingly good»

DeepSeek (DeepSeek)

Лучший для: математики, логики, кода; задач, где нужна агрессивная оптимизация стоимости
Два режима: reasoning-эндпоинт (медленнее, точнее для сложных задач) и fast-эндпоинт (низкая задержка для общих запросов)
Контекст: сотни тысяч токенов на стандартных эндпоинтах
Цена: заметно ниже конкурентов
Лицензирование: микс open weight и OSI open — уточняйте для конкретного варианта

Gemini 2.5 Pro (Google)

Лучший для: анализа данных с огромными датасетами; research-задач с гигантскими контекстами; глубокой интеграции с экосистемой Google (Search, Maps и т.д.)
Контекст: до 1 млн токенов, более крупные окна доступны в preview
Нативная мультимодальность: текст, изображения, видео, аудио
Ограничения: немного уступает Claude и GPT-5 в чистом программировании
На горизонте: Gemini 3 в Q4 2025 со значительными улучшениями в коде

Подробнее про Gemini: 21 неожиданный способ использовать Gemini - полное руководство по функциям

Часть 4: Специализированные модели

Большая ошибка — думать, что «чем больше модель, тем лучше». Маленькая специализированная модель часто выигрывает за долю цены.

Mistral

Философия: 90% производительности за 10% стоимости.

Модель	Параметры	Лицензия	Для чего
Mistral 3 Medium	—	—	Близко к Claude Sonnet 3.7, экономно, работает на 4 GPU
Mistral Small 3.1	24 млрд	Apache 2.0	150 токенов/сек — high-throughput: боты поддержки

Cohere Command

Философия: enterprise с сильным соответствием требованиям.

Модель	Контекст	Особенность
Command R+	128K токенов	Q&A с цитатами, мультиязычность — корпоративные чат-боты
Command A (март 2025)	256K токенов	Рассуждения, перевод на 23 языка, vision

Moonshot Kimi

Специализация: агентные воркфлоу.

Kimi K2 — 1 трлн параметров MoE, open weights, built-for-agents: real-time веб-поиск, мультимодальность, архитектура для self-reflection
Kimi Dev 72B — поставил рекорд на SWE-bench среди open-моделей. Отличный выбор для автономных research-агентов: поиск + код + верификация

Qwen (Alibaba)

Философия: мощные open-weight альтернативы.

Модель	Параметры	Лицензия	Особенность
Qwen 2.5 (линейка)	0.5–72 млрд	Apache 2.0 (многие варианты)	72B конкурирует с GPT-4 по многим бенчмаркам
Qwen 2.5 Coder	—	—	Оптимизирован для кода, сильная мультиязычная генерация

Часть 5: Фреймворк выбора модели (Decision Matrix)

Шаг 1: Определите тип лицензии (первым делом)

Задайте себе эти вопросы:

Вопрос	Если «Да» →
Есть ли у вас персональные данные клиентов (PII/PHI)?	On-prem open weight или closed с enterprise-соглашением
Нужен файнтюнинг на собственных данных?	Open source (Mistral, Kimi) или open weight (Llama) — closed не даст нужного контроля
Маленькая команда, нужна скорость запуска?	Closed API (GPT-5, Claude, Gemini, DeepSeek) — быстро в продакшн, провалидировали PMF → пересмотрите позже
Работаете в масштабе с бюджетными ограничениями?	Роутер: 80% запросов → open models, 20% сложных → closed

Шаг 2: Определите требования

По сложности задачи:

Тип задачи	Подходящие модели
Простые запросы (FAQ, классификация)	Mistral Small, DeepSeek Fast
Средняя сложность (написание, базовый код)	Mistral Medium, GPT-5 Fast mode
Сложные рассуждения (математика, research)	Grok 4, GPT-5 Reasoning, DeepSeek Reasoning
Агентные воркфлоу	Kimi K2, Claude Sonnet 4.5

По размеру контекста:

Нужный контекст	Выбор
< 128K токенов	Любая модель
128K – 1M токенов	Большинство frontier-моделей
1–2M токенов	Gemini, Grok, Llama Maverick
> 2M токенов	Llama 4 Scout (до 10M)

По типу деплоя:

Деплой	Модели
Cloud API	GPT-5, Claude, Gemini, DeepSeek, Grok
Self-hosted	Llama, Mistral, Kimi, DeepSeek Open Weight
Edge / Local	Quantized Mistral 7B

Шаг 3: Постройте evaluation pipeline

Никогда не доверяйте публичным бенчмаркам полностью — они не тестируют ваш конкретный кейс.

Создайте тестовый набор (20–50 примеров минимум, цель — 300+):

Типичные запросы, которые система должна хорошо обработать
Edge cases — граничные и нетипичные случаи
Out-of-scope запросы — то, с чем система не должна работать
Ошибки пользователей: опечатки, неясные формулировки

Критерии оценки:

Критерий	Описание
Точность / фактическая корректность	Главная метрика для большинства приложений
Качество / полезность	Технически верный, но бесполезный ответ — плохой ответ
Соответствие формату	Если нужен JSON — получаете валидный JSON?
Скорость	Время ответа — насколько критично для вашего кейса

Обязательно: создайте рубрику с примерами — как выглядит ответ на 4/5? На 2/5? Без этого оценки непоследовательны.

Методы оценки:

Метод	Когда использовать	Плюсы / Минусы
Exact match	Простые задачи (multiple choice, извлечение данных)	Надёжно, но только для однозначных ответов
Lexical similarity (BLEU, ROUGE)	Когда есть эталонные ответы	Нужны эталоны; высокое совпадение ≠ высокое качество
Semantic similarity	Большинство гибких задач	Эмбеддит тексты и сравнивает через cosine similarity; не требует точных эталонов
AI judges (GPT-5 / Claude как судья)	Быстро, дёшево, без эталонных данных	Хорошо коррелирует с человеческими оценками; нужна хорошая промптизация + temperature=0 для воспроизводимости

По AI judges: используйте few-shot примеры (хороший и плохой ответ), установите temperature=0, рассмотрите запуск нескольких оценок с усреднением.

Шаг 4: Рассчитайте реальную стоимость

Для API-моделей:

Стоимость = (входные токены × цена за входной токен 
           + выходные токены × цена за выходной токен) 
           × месячный объём

Для open weight моделей:

Стоимость GPU (аренда или покупка)
Инженерное время и зарплаты команды
Операционные расходы: мониторинг, поддержка, обновления

Дорого при малых объёмах → выгодно при высоких нагрузках.

Часть 6: Взгляд в будущее (конец 2025)

Модель	Ожидаемое	Фокус
Grok 5	До конца 2025	Обучается на Colossus 2 — первый суперкомпьютер с мощностью 1+ гигаватт. xAI описывает как «crushingly good», фокус на AGI
Gemini 3	Q4 2025	Значительные улучшения в программировании + расширенные мультимодальные возможности

Итог: короткий алгоритм выбора

1. Есть PII/PHI или нужен файнтюнинг? → Open weight или enterprise closed
2. Маленькая команда, нужна скорость? → Closed API, идите в продакшн
3. Работаете в масштабе? → Роутер: open для рутины, closed для сложного

4. Определите контекстное окно
5. Определите тип задачи (код / рассуждения / агенты / мультимодаль)

6. Создайте тестовый набор из ВАШЕГО домена
7. Прогоните 2–3 кандидата через evaluation pipeline
8. Посчитайте реальную стоимость при вашем объёме
9. Выберите модель — и планируйте пересмотр через 3–6 месяцев

Рынок меняется быстро. Нет «правильного выбора навсегда» — есть правильный выбор сейчас, для вашего кейса.

Источник: Large Language Model Selection Masterclass — Marina Wyss (ноябрь 2025)

AI Articles

Проводник