Рейтинг LLM и агентов: независимая пересборка
Снимок на 30 июня 2026, числа сверены по перечисленным источникам. Практический shortlist: какие модели одновременно сильны в агентной работе, коде и tool-use и при этом дают вменяемую скорость. Это не «математически доказанный» рейтинг, а рабочая картина. Ниже также цены API, цены подписок и разбор, какие подписки оптимальны (включая OpenCode Go). Источники пронумерованы и собраны в конце.
Важно по составу. Claude Fable 5 формально остаётся #1 по качеству, но с 12 июня 2026 он недоступен: по export-control directive Министерства торговли США Anthropic отключил Fable 5 и Mythos 5 глобально, дата возврата не объявлена. Реально доступный верх - Claude Opus 4.8 и GPT-5.5. [3][23][24]
Новое: Claude Sonnet 5 (30 июня 2026,
claude-sonnet-5) - сразу на #6. Сильна по коду и tool-use, вровень с Opus 4.8 на knowledge-work, но небыстрая и дорогая по задаче (cost-per-task ~2x Sonnet 4.6, ~15% выше Opus 4.8), поэтому ниже Gemini 3.5 Flash и GLM-5.2. Стала дефолтом Claude Code вместо Sonnet 4.6. [35][36]
Методология: что нельзя смешивать
Большинство ошибок в таких рейтингах идёт от смешивания несопоставимых вещей.
- Версии бенчмарков. Terminal-Bench 2.0 и 2.1 - не одно и то же. 2.1 - это отдельный verified refresh на 89 curated tasks, и Artificial Analysis прогоняет его собственной реализацией через harness Terminus 2. Числа 2.0 и 2.1 в одной колонке искажают рейтинг. [5]
- Модель против связки «модель + harness». GPT-5.5 как API-модель и GPT-5.5 внутри Codex CLI - это разные практические продукты, их помечаю отдельно.
- Скорость - это не одно число. Artificial Analysis даёт отдельно output speed (tok/s), TTFT и total response. Критично: TTFT у reasoning-моделей включает время «размышления», поэтому значения в 20-100s - это не задержка до первого токена в обычном смысле, а thinking-time. При выключенном thinking или в instant-режиме реальный TTFT падает до долей секунды (Kimi K2.6 - ~0.53s instant против многосекундного reasoning). Честнее всего сравнивать по output tok/s. Подробнее - в разделе «Как читать скорость». [1]
- LMArena ELO берётся по категории. В Text Overall и в Code Arena у одной и той же модели разные позиции и разная группа сравнения. Сводить их в одну колонку без категории нельзя. [4]
- Один прогон - не истина в последней инстанции. Terminal-Bench 2.1 сильно зависит от harness: у Opus 4.8 это 84.6% по Artificial Analysis, но 71.9% по Vals.ai и 82.7% по самоотчёту Anthropic. Числа Terminal-Bench в таблице ниже - конкретный прогон AA, а не абсолютная истина. [6][25]
Несколько точечных правок к ходовым спискам:
- «Qwen3.5 Max» в актуальных независимых списках уже не фигурирует - есть Qwen3.7 Max / Max Preview (около 197 tok/s, TTFT ~2.49s). [1]
- Gemini 3.5 Flash - реальная agentic/coding-модель, но её громкие числа (Terminal-Bench 2.1 = 76.2%, MCP Atlas = 83.6%, OSWorld-Verified = 78.4%) - самоотчёт Google, не независимый прогон. По независимому Intelligence Index Artificial Analysis она ~55.3 - ниже Opus 4.8 (61.4) и GPT-5.5 (~59), но дешевле примерно на 70% и кратно быстрее. На SWE-bench Pro у неё 55.1% - ниже даже прошлого Opus 4.7 (64.3%), и независимые ревьюеры отмечают высокий процент галлюцинаций. Это Flash-tier, играющий выше своего класса; tier-ровня - будущий Gemini 3.5 Pro. [2][19][25]
- Claude Fable 5 на 30 июня - suspended, не «GA». 12 июня 2026 Министерство торговли США выпустило export-control directive, и Anthropic глобально отключил Fable 5 и Mythos 5; на 25-26 июня модель всё ещё offline, даты возврата нет. Прошлая пометка «GA без оговорок» неверна. [3][23][24]
Как читать скорость
Скорость - не одна цифра, и большинство рейтингов её путают.
- Output speed (tok/s) - сколько токенов в секунду модель генерирует. Самая стабильная и сравнимая метрика. Frontier-reasoning модели тут НЕ лидеры: Opus 4.8 и GPT-5.5 идут по ~60 tok/s, тогда как Gemini 3.5 Flash - ~173 tok/s, а диффузионный Mercury 2 - 950+ tok/s.
- TTFT (time to first token) - задержка до первого
токена. У reasoning- моделей Artificial Analysis включает в TTFT время
размышления, поэтому в таблицах встречаются «TTFT 20-100s». Это не
значит, что ответа ждёшь полторы минуты: при
thinking_budget:0или в instant-режиме реальный TTFT падает до ~0.5-5s. Gemini 3.5 Flash: ~22s по умолчанию (dynamic thinking on) против ~17-19s при выключенном thinking. - Total response - полное время до конца ответа; зависит и от объёма «мыслей», и от длины ответа.
По скорости на практике: для latency-чувствительных и высокочастотных задач берут Flash-tier (Gemini 3.5 Flash ~173 tok/s; Gemini 3.1 Flash-Lite ~316 tok/s, TTFT ~5s) или совсем лёгкие модели; самый низкий TTFT (<600ms) - у Gemini 2.5 Flash и Claude Haiku 4.5. Тяжёлые reasoning-агенты (Opus 4.8, GPT-5.5, Fable 5) берут не скоростью, а качеством. [1]
Бенчмарки, взятые за ядро рейтинга
| Приоритет | Бенчмарк / источник | Что меряет | Польза для задачи |
|---|---|---|---|
| 1 | Terminal-Bench 2.1 | Работа terminal-агента: shell, DevOps, data, security, model training | Очень высокая. Один из лучших тестов именно для agentic terminal work. [6] |
| 2 | SWE-bench Verified / Pro | Исправление реальных GitHub-задач | Очень высокая. Verified - human-filtered 500 задач, уже частично насыщен; Pro - более жёсткая добавка. [7] |
| 3 | MCP Atlas | Tool-use через MCP, вызовы инструментов, multi-step workflow | Очень высокая для агентных систем с инструментами. Публичный leaderboard, tool budget, scoring judge. [8] |
| 4 | APEX-Agents | Long-horizon офисные/профессиональные задачи: finance, law, consulting | Очень высокая для агентов-«работников», не только coding. 480 задач с файлами и инструментами; AA прогоняет 452 public tasks. [9] |
| 5 | LMArena Text / Code / Agent | Слепые human-preference баттлы | Высокая как общий sanity check, не как единственный источник. Text, Code и Agent держать раздельно. [4] |
| 6 | Artificial Analysis LLM Leaderboard | Intelligence index, скорость, latency, цена, контекст | Очень полезен для практического рейтинга, особенно по скорости и цене. [1] |
| 7 | BFCL V4 | Function calling / tool calling | Независимая проверка точности tool-use. V4 - holistic agentic evaluation. [10] |
| 8 | OSWorld | Computer-use задачи в реальной ОС | Полезен для GUI/browser/computer-use агентов. 369 real-world задач. [11] |
| 9 | WebArena / VisualWebArena / Infinity | Автономные web-агенты | Для browser-агентов и работы с сайтами. [12] |
| 10 | Aider Polyglot | Реальное редактирование кода без человека | Практический coding sanity check, особенно для pair-programming. [13] |
| 11 | CodeClash | Goal-oriented software engineering, не только unit-тесты | Новый тип оценки: модели соревнуются, улучшая кодовую базу по раундам. [14] |
| 12 | GAIA / HAL | Общие задачи с tools, web, multimodality | Исторически важен, но обновления leaderboard приостановлены - беру как secondary signal. [15] |
| 13 | HLE / GPQA Diamond / LiveBench | Общее reasoning/knowledge качество | Общий контроль, не замена агентным бенчмаркам. |
| 14 | MERA | Русскоязычная оценка моделей | Нужен, если отдельный критерий - качество на русском. Независимая unified evaluation для русского. [16] |
| 15 | RULER / long-context | Длинный контекст, retrieval, устойчивость к потере информации | Нужен при выборе под большие репозитории и документы. [17] |
Схема композитного рейтинга
Один усреднённый балл по всем колонкам смысла не имеет. Веса, по которым я ранжирую:
- 40% - agentic coding / terminal: Terminal-Bench 2.1, SWE-bench Pro, SWE-bench Verified, Aider, CodeClash.
- 25% - tool / workflow агенты: MCP Atlas, APEX-Agents, BFCL, OSWorld, WebArena.
- 20% - общее качество: Artificial Analysis Intelligence, LMArena Text/Code/Agent, HLE/GPQA/LiveBench.
- 15% - практичность: скорость, TTFT, total response, цена, context window, лицензия и возможность self-host.
И отдельно помечаю, модель это или связка «модель + agent harness».
Top-21: модели и агенты
Скорость читать по разделу «Как читать скорость» выше. В колонке: tok/s - output speed; TTFT - до первого токена (у reasoning-моделей включает thinking-time и сильно падает при его отключении); total - полное время ответа по Artificial Analysis.
| # | Модель / агент | Тип | Почему в рейтинге | Скорость / отклик | Практическая роль |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 (недоступна) | Closed, suspended | Формально #1 по качеству: топ Artificial Analysis Intelligence (~61), #1 LMArena Text до отключения. Но с 12 июня 2026 offline - export-control directive США, Anthropic отключил Fable 5 и Mythos 5 глобально, даты возврата нет. [3][23][24] | Недоступна для вызова (instant и reasoning - неважно) | Эталон качества «на бумаге»; пользоваться сейчас нельзя - см. Opus 4.8 / GPT-5.5 |
| 2 | Claude Opus 4.8 | Closed | Один из сильнейших agentic/coding: Terminal-Bench 2.1 = 84.6% по AA; Anthropic позиционирует Opus 4.8 для complex reasoning и long-horizon agentic coding. [6] | ~63 tok/s, TTFT ~30.0s, total ~37.9s. [1] | Лучший тяжёлый агент для кода и автономной работы |
| 3 | GPT-5.5 / xHigh + Codex | Closed + Agent | SOTA agentic coding: Terminal-Bench 2.0 = 82.7%, SWE-bench Pro = 58.6%, AA даёт xHigh ~84.3% на Terminal-Bench 2.1; SWE-bench Pro лидер по repo-задачам (Opus 4.8 = 69.2%, GPT-5.5 = 58.6%). По доступным моделям - верх рейтинга. [18] | High: ~62 tok/s, TTFT ~28s (reasoning, включает thinking); xHigh ещё медленнее по первому ответу. Output - не сильная сторона. [1] | Terminal/coding-агент, Codex workflows, большие рефакторы |
| 4 | Gemini 3.5 Flash | Closed, Flash-tier | Лидер по скорости/цене и по MCP Atlas (83.6%, выше GPT-5.5 и Opus 4.8). Но числа - самоотчёт Google; по независимому AA Intelligence ~55.3 ниже Opus 4.8/GPT-5.5, на SWE-bench Pro 55.1% ниже даже Opus 4.7, и ревьюеры отмечают высокий процент галлюцинаций. Flash-tier, играющий выше класса. [2][19][25] | ~173 tok/s (output - очень быстро); TTFT ~22s по умолчанию из-за
dynamic thinking, ~17-19s при thinking_budget:0. [1] |
Быстрый дешёвый default для высокочастотных и MCP-задач; не для reliability-critical кода без ревью |
| 5 | GLM-5.2 (Max effort) | Open-weight / MIT | Лучший open-weight по независимому AA Intelligence Index (~51); SWE-bench Pro 62.1 обходит GPT-5.5 (58.6); Terminal-Bench 2.1 = 81.0, MCP Atlas ~76.8 (числа Z.ai). «Max» - уровень усилия, не отдельная модель. [1] | ~133 tok/s, TTFT ~1.45s (меньше thinking по умолчанию). [1] | Лучший self-host / open-weight кандидат |
| 6 | Claude Sonnet 5 | Closed | Сильный агент по коду: SWE-bench Pro 63.2 (выше GLM-5.2 62.1, GPT-5.5 58.6, Flash 55.1; ниже только Opus 4.8 69.2), Terminal-Bench 2.1 = 80.4, OSWorld 81.2; на GDPval-AA v2 (1618 vs 1615) и HLE-with-tools (57.4 vs 57.9) вровень с Opus 4.8. AA Intelligence Index 53 (#5 по индексу). Ниже Flash/GLM из-за практичности: дорогая по задаче и небыстрая. [35][36] | low/medium ~52-56 tok/s, TTFT ~1.0s; high/xhigh/max output ~58/71/85 tok/s, но задержка до первого answer-токена с thinking 20.7/28.5/150.6s (это не «чистый TTFT»). [35][36] | Сильный Claude Code default вместо Sonnet 4.6; не замена Opus 4.8 |
| 7 | Claude Opus 4.7 | Closed | Сильный reasoning-вариант: Opus 4.7 Thinking у верхушки LMArena Text Overall, высокий Intelligence Index. [4] | Max: ~49 tok/s, TTFT ~18.8s, total ~29.1s. [1] | Надёжный reasoning, fallback |
| 8 | Gemini 3.1 Pro Preview | Closed | Сильная general/multimodal: высокая позиция в LMArena Text Overall, хороший баланс speed/quality. [4] | ~137 tok/s, TTFT ~22.8s, total ~26.4s. [1] | General reasoning, multimodal, long-context |
| 9 | Qwen3.7 Max | Open-weight / China stack | Высокая скорость, низкая цена, сильная общая позиция в AA; замена «Qwen3.5 Max». [1] | ~197 tok/s, TTFT ~2.49s, total ~17.25s. [1] | Быстрый дешёвый general/coding/multilingual слой |
| 10 | Claude Sonnet 4.6 | Closed | Важна для Claude Code: Anthropic позиционирует Sonnet как лучшее сочетание intelligence и скорости. [20] | В Max-режиме AA медленно: ~55 tok/s, TTFT ~103s; в low/medium effort - более быстрый рабочий вариант. [1] | Повседневный coding-агент, баланс цены и качества |
| 11 | Kimi K2.6 | Open-weight | Moonshot: SWE-bench Verified = 80.2, SWE-bench Pro = 58.6, OSWorld Verified = 73.1, Terminal-Bench 2.0 = 66.7. [21] | ~83 tok/s, TTFT ~2.68s, total ~62.7s. [1] | Open-weight агент для кода и длинных tool-chain задач |
| 12 | Kimi K2.7 Code | Open-weight / coding | Новая coding-ветка; LMArena добавила K2.7 Code в Code 15 июня 2026. Независимых агентных результатов пока меньше. [22] | ~62 tok/s, TTFT ~2.28s, total ~46.6s. [1] | Watchlist для coding-агента и MCP workflows |
| 13 | MiniMax-M3 | Open-weight / low-cost | Высокий Intelligence Index при очень низком blended cost. [1] | ~96 tok/s, TTFT ~2.08s, total ~28.0s. [1] | Бюджетный агент, browser/GUI эксперименты |
| 14 | DeepSeek V4 Pro / Pro Max | Open-weight / low-cost | Сильный price/performance: рядом с MiniMax-M3 по Intelligence Index при очень низкой цене. [1] | Pro Max: ~91 tok/s, TTFT ~1.73s; Pro High: ~85 tok/s, TTFT ~1.84s. [1] | Экономичный reasoning/coding layer |
| 15 | GPT-5.3 Codex xHigh | Closed + Agent | Отдельный агентный режим, но для нового рейтинга GPT-5.5 обычно предпочтительнее. [1] | ~100 tok/s, TTFT ~82.8s, total ~87.8s. [1] | Codex workflows, если нужен именно этот стек |
| 16 | Muse Spark | Closed / tool-agent | В MCP Atlas рядом с Opus 4.8 и Fable 5 по tool-use, но публичной speed-картины меньше. [8] | Недостаточно независимых speed-данных | Watchlist для tool orchestration |
| 17 | Grok Build 0.1 / Grok 4.20 beta | Closed | Grok Build 0.1 в AA с очень низким TTFT; Grok 4.20 beta reasoning - в верхней части LMArena Text Overall. [1] | Grok Build 0.1: ~98 tok/s, TTFT ~0.54s, total ~26.0s. [1] | Быстрый build/webdev экспериментальный слой |
| 18 | Nex-N2-Pro | Closed / low-latency | Неплохой speed/value в AA, меньше независимых агентных сигналов. [1] | ~81 tok/s, TTFT ~1.71s, total ~32.5s. [1] | Быстрый недорогой general layer |
| 19 | MiMo-V2.5-Pro | Open / China stack | Сильный low-cost по Intelligence Index, но без агентного веса GLM/Kimi/DeepSeek. [1] | ~50 tok/s, TTFT ~2.47s, total ~52.3s. [1] | Бюджетный reasoning, fallback |
| 20 | GPT-5.4 mini xHigh | Closed / fast small | Не топовая агентная, но полезна как быстрый routing/fallback слой. [1] | ~182 tok/s, TTFT ~7.0s, total ~9.75s. [1] | Быстрые промежуточные задачи, summarization, routing |
| 21 | DeepSeek V4 Flash Max | Open-weight / ultra-low-cost | Не лидер по сложной агентности, но крайне дешёвый и быстрый для массовых задач. [1] | ~107 tok/s, TTFT ~1.42s, total ~58.4s. [1] | Массовый дешёвый inference, fallback |
Цены: API (за 1M токенов)
Стандартный тариф, USD, input / output. «Blended» - смешанная цена при типичном соотношении 3:1 (вход:выход), как считает Artificial Analysis.
| Модель | Input | Output | Blended 3:1 | Примечание |
|---|---|---|---|---|
| Claude Opus 4.8 | $5.00 | $25.00 | $10.00 | cache read $0.50; Fast mode $10/$50 |
| Claude Sonnet 5 | $3.00 | $15.00 | $6.00 | интро $2/$10 до 31.08.2026; токенайзер +~30%, cost-per-task ~2x Sonnet 4.6 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $6.00 | cache read $0.30 |
| GPT-5.5 | $3.00 | $15-30 | $6.0-9.8 | источники расходятся по output |
| Gemini 3.1 Pro | $2.00 | $12.00 | $4.50 | >200K токенов: $4/$18 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $3.38 | cache $0.15 |
| GLM-5.2 (open) | $1.40 | $4.40 | $2.15 | MIT, self-host бесплатно |
| DeepSeek V4 Pro (open) | ~$1.48 | ~$3.30 | $1.94 | open-weight |
| Qwen3.7 Max (open) | ~$1.25 | ~$3.75 | $1.88 | 1M контекст |
| Kimi K2.6 (open) | $0.60 | $3.20 | $1.25 | дёшево |
| DeepSeek V4 Flash (open) | $0.14 | $0.28 | $0.18 | самый дешёвый API |
Средние по API:
- Closed frontier (Opus 4.8, Sonnet 5, Sonnet 4.6, GPT-5.5, Gemini Pro/Flash): ~$2.90 input / $15.20 output, blended ~$6.0/M. Оговорка по Sonnet 5: низкая цена за токен обманчива - из-за токен-bloat реальная цена задачи одна из самых высоких (2-е место после Fable 5). [36]
- Open-weight (GLM-5.2, Qwen3.7, Kimi K2.6, DeepSeek V4 Pro): ~$1.18 input / $3.66 output, blended ~$1.8/M.
- Открытые модели по API в среднем ~в 3 раза дешевле, а self-host убирает per-token счёт совсем. [1][26][27][28]
Цены: подписки (в месяц)
Общие чат-подписки:
| Сервис | Базовая | Премиум |
|---|---|---|
| ChatGPT | Plus $20 (Go $8) | Pro $200 |
| Claude | Pro $20 | Max 5x $100 / 20x $200 |
| Google Gemini | AI Pro $19.99 | AI Ultra $249.99 |
| Perplexity | Pro $20 | - |
| xAI Grok | SuperGrok $30 | Heavy $300 |
Средняя базовая ~$22/мес (рынок сошёлся на $20, Grok дороже). Средний премиум-флагман ~$237/мес.
Coding-подписки (агенты и IDE):
| Инструмент | Free | Pro | Power |
|---|---|---|---|
| GitHub Copilot | да (2000 compl) | $10 | Pro+ $39 / Max ~$100 |
| Cursor | лимит | $20 | Pro+ $60 / Ultra $200 |
| Windsurf | да | $20 | Max $200 |
| Claude Code | - | в Claude Pro $20 | Max 5x $100 / 20x $200 |
| OpenAI Codex | да (ChatGPT Free / CLI) | в ChatGPT Plus $20 | Pro 5x $100 / 20x $200; API per-token |
| OpenCode | да (MIT, BYOK) | - | - |
| OpenCode Zen | free-модели | PAYG $20 prepaid, ~0 markup | - |
| OpenCode Go | - | $5 первый месяц (интро), далее $10 | - |
Средняя coding-Pro ~$17/мес (Copilot и OpenCode Go по $10 тянут вниз; Cursor / Windsurf / Claude Code / Codex по $20). Важно: Codex входит в ChatGPT-подписки, а Claude Code - в Claude Pro/Max, то есть это не отдельная плата поверх чат-подписки, и у обоих лимиты на 5-часовом окне. Power-уровень - $100-200 почти везде. У части сервисов вход дешевле повторной цены за счёт промо на первый месяц (у OpenCode Go - $5 против $10 дальше), поэтому первый счёт не равен постоянному. [26][29][30][31][32][33]
Какие подписки оптимальны
Оптимально:
- Самый дешёвый capable: GitHub Copilot Pro $10 - мульти-модель (включая Claude Opus), агент, code review. Лучшая цена среди коммерческих.
- Самый дешёвый open-weight стек: OpenCode (free, MIT) + OpenCode Go ($5 первый месяц, далее $10) - терминальный агент на GLM-5.2 / Kimi K2.7 Code / Qwen3.7 / DeepSeek V4. Для тех, кому ок открытые модели, это лучшая цена/возможности 2026 и прямое продолжение вывода «GLM-5.2 - топ open-weight». [31]
- $20 терминал: Codex (ChatGPT Plus) или Claude Code Pro - оба на 5-часовом окне, но за те же $20 Codex щедрее по лимитам (Plus: ~15-80 сообщений GPT-5.5 + 30-150 Codex + облачные задачи за 5ч; по 100-часовым сравнениям $20 Plus тянет то, что у Claude требует Max 5x за $100). Claude Code Pro выгорает за 15-30 минут (заявлен под лёгкую нагрузку), зато обычно сильнее по качеству кода и repo-рефакторам. Anthropic 6 мая 2026 удвоил лимиты Claude Code - воздуха больше, но не безлимит. С 30 июня 2026 Claude Code дефолтит на Sonnet 5 (дешевле за токен, но прожорливее по токенам, чем Sonnet 4.6). [33][34][35]
- $20 IDE: Cursor Pro.
- Тяжёлый ежедневный агент: Codex Pro 5x/20x ($100/$200), Claude Max 5x/20x ($100/$200) или Cursor Ultra $200 - предсказуемый потолок дешевле, чем API.
Неоптимально и ловушки:
- API/BYOK при тяжёлом ежедневном использовании - непредсказуемо: легко $200-500+/мес, дороже самой дорогой подписки (репортят скачки $29→$750, $50→$3000). API выгоден только при лёгком или всплесковом использовании. [32]
- Claude Code Pro $20 и Codex в ChatGPT Plus для хэви-нагрузки - оба на 5-часовом окне, бюджет кончается за 15-30 минут; де-факто нужен Claude Max или Codex Pro 5x/20x ($100/$200).
- Переход на usage-based billing (Copilot с 1 июня 2026 - кредиты; Cursor и Windsurf - токены): «flat-rate мёртв», цена плана это входной билет, а не весь бюджет.
- SuperGrok Heavy $300 и Google AI Ultra $250 - оправданы только под нишу (live-данные X, видео-генерация), иначе переплата.
- Подписаться на всё (~$110/мес базово, ~$950/мес премиум) - расточительно; берут по своему workflow.
Оптимальные связки (так делает большинство): Cursor (IDE) + Claude Code (терминал для сложного); или Copilot $10 (IDE) + OpenCode либо Claude Code (терминал). Бюджетный максимум - OpenCode + OpenCode Go $10 на открытых моделях.
Практический вывод
- Самый сильный по качеству: Claude Fable 5 (но сейчас offline) → из доступных Claude Opus 4.8 и GPT-5.5.
- Быстрый рабочий default: Gemini 3.5 Flash - но это Flash-tier и с оговоркой по надёжности; для критичного кода всё равно Opus 4.8 / GPT-5.5.
- Claude Code default: с 30 июня 2026 - Claude Sonnet 5 вместо Sonnet 4.6: сильнее по коду и tool-use, но дороже по задаче и небыстрая; для тяжёлого - всё равно Opus 4.8.
- Open-weight / self-host: GLM-5.2 (Max effort) первым, затем Kimi K2.6 и K2.7 Code, затем DeepSeek V4 Pro и MiniMax-M3.
- Дешёвый routing-стек: Qwen3.7 Max, DeepSeek V4 Pro, GPT-5.4 mini, DeepSeek V4 Flash.
- Чистая скорость (output tok/s): Flash-tier и диффузионные модели, не frontier-reasoning - см. раздел «Как читать скорость».
- Если рейтинг именно про agentic coding: связка Terminal-Bench 2.1 + SWE-bench Pro + MCP Atlas + APEX-Agents + output-скорость AA, а LMArena - как sanity check.
Где источники расходятся, держусь независимого Artificial Analysis Intelligence Index и помечаю vendor-reported числа. Главные акценты: GLM-5.2 - лучший open-weight/self-host; Gemini 3.5 Flash - чемпион скорости и цены, но не универсальный топ; а первое место Fable 5 - историческое: до снятия экспортных ограничений модель недоступна.
Источники
- Artificial Analysis - LLM Leaderboard. https://artificialanalysis.ai/leaderboards/models
- Google - Gemini 3.5: frontier intelligence with action. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
- Anthropic - Introducing Claude Fable 5 and Claude Mythos 5. https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5
- LMArena - Text Leaderboard. https://arena.ai/leaderboard/text
- Terminal-Bench. https://www.tbench.ai/
- Artificial Analysis - Terminal-Bench v2.1. https://artificialanalysis.ai/evaluations/terminalbench-v2-1
- SWE-bench Leaderboards. https://www.swebench.com/
- Scale Labs - MCP Atlas Leaderboard. https://labs.scale.com/leaderboard/mcp_atlas
- Mercor - APEX-Agents Leaderboard. https://www.mercor.com/apex/apex-agents-leaderboard/
- Berkeley Function Calling Leaderboard (BFCL) V4. https://gorilla.cs.berkeley.edu/leaderboard.html
- OSWorld. https://os-world.github.io/
- WebArena. https://webarena.dev/
- Aider LLM Leaderboards. https://aider.chat/docs/leaderboards/
- CodeClash. https://codeclash.ai/
- HAL - GAIA Leaderboard. https://hal.cs.princeton.edu/gaia
- MERA (Multimodal Evaluation for Russian). https://github.com/MERA-Evaluation/MERA
- NVIDIA RULER. https://github.com/NVIDIA/RULER
- OpenAI - Introducing GPT-5.5. https://openai.com/index/introducing-gpt-5-5/
- Google DeepMind - Gemini 3.5 Flash Model Card. https://deepmind.google/models/model-cards/gemini-3-5-flash/
- Anthropic - Models overview. https://platform.claude.com/docs/en/about-claude/models/overview
- Kimi K2.6 Tech Blog. https://www.kimi.com/blog/kimi-k2-6
- LMArena - Leaderboard Changelog. https://news.lmarena.ai/leaderboard-changelog/
- Forbes - Anthropic Disabled Fable 5 and Mythos 5 After a U.S. Export-Control Order. https://www.forbes.com/sites/anishasircar/2026/06/16/anthropic-disabled-fable-5-and-mythos-5-after-a-us-export-control-order-heres-what-happened/
- Greenberg Traurig - Anthropic Suspends Access to Claude Fable 5 and Mythos 5. https://www.gtlaw.com/en/insights/2026/6/ai-company-anthropic-suspends-access-to-claude-fable-5-claude-mythos-5-following-us-export-control-directive
- Vals.ai - Terminal-Bench 2.1 (independent harness). https://www.vals.ai/benchmarks/terminal-bench-2-1
- Anthropic - Claude Platform Pricing. https://platform.claude.com/docs/en/about-claude/pricing
- Google - Gemini API Pricing. https://ai.google.dev/gemini-api/docs/pricing
- Artificial Analysis - Models (price comparison). https://artificialanalysis.ai/models
- AI Subscription Pricing Comparison 2026. https://www.aipricing.guru/subscriptions/
- Developers Digest - AI Coding Tools Pricing 2026. https://www.developersdigest.tech/blog/ai-coding-tools-pricing-2026
- OpenCode Go. https://opencode.ai/go
- morphllm - AI Coding Costs 2026. https://www.morphllm.com/ai-coding-costs
- OpenAI - Codex Pricing. https://developers.openai.com/codex/pricing
- morphllm - Codex vs Claude Code (limits comparison). https://www.morphllm.com/comparisons/codex-vs-claude-code
- Anthropic - Introducing Claude Sonnet 5. https://www.anthropic.com/news/claude-sonnet-5
- Artificial Analysis - Claude Sonnet 5: strong agentic performance at a higher cost per task. https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost