Рейтинг LLM и агентов: независимая пересборка

Снимок на 30 июня 2026, числа сверены по перечисленным источникам. Практический shortlist: какие модели одновременно сильны в агентной работе, коде и tool-use и при этом дают вменяемую скорость. Это не «математически доказанный» рейтинг, а рабочая картина. Ниже также цены API, цены подписок и разбор, какие подписки оптимальны (включая OpenCode Go). Источники пронумерованы и собраны в конце.

Важно по составу. Claude Fable 5 формально остаётся #1 по качеству, но с 12 июня 2026 он недоступен: по export-control directive Министерства торговли США Anthropic отключил Fable 5 и Mythos 5 глобально, дата возврата не объявлена. Реально доступный верх - Claude Opus 4.8 и GPT-5.5. [3][23][24]

Новое: Claude Sonnet 5 (30 июня 2026, claude-sonnet-5) - сразу на #6. Сильна по коду и tool-use, вровень с Opus 4.8 на knowledge-work, но небыстрая и дорогая по задаче (cost-per-task ~2x Sonnet 4.6, ~15% выше Opus 4.8), поэтому ниже Gemini 3.5 Flash и GLM-5.2. Стала дефолтом Claude Code вместо Sonnet 4.6. [35][36]

Методология: что нельзя смешивать

Большинство ошибок в таких рейтингах идёт от смешивания несопоставимых вещей.

Несколько точечных правок к ходовым спискам:

Как читать скорость

Скорость - не одна цифра, и большинство рейтингов её путают.

По скорости на практике: для latency-чувствительных и высокочастотных задач берут Flash-tier (Gemini 3.5 Flash ~173 tok/s; Gemini 3.1 Flash-Lite ~316 tok/s, TTFT ~5s) или совсем лёгкие модели; самый низкий TTFT (<600ms) - у Gemini 2.5 Flash и Claude Haiku 4.5. Тяжёлые reasoning-агенты (Opus 4.8, GPT-5.5, Fable 5) берут не скоростью, а качеством. [1]

Бенчмарки, взятые за ядро рейтинга

Приоритет Бенчмарк / источник Что меряет Польза для задачи
1 Terminal-Bench 2.1 Работа terminal-агента: shell, DevOps, data, security, model training Очень высокая. Один из лучших тестов именно для agentic terminal work. [6]
2 SWE-bench Verified / Pro Исправление реальных GitHub-задач Очень высокая. Verified - human-filtered 500 задач, уже частично насыщен; Pro - более жёсткая добавка. [7]
3 MCP Atlas Tool-use через MCP, вызовы инструментов, multi-step workflow Очень высокая для агентных систем с инструментами. Публичный leaderboard, tool budget, scoring judge. [8]
4 APEX-Agents Long-horizon офисные/профессиональные задачи: finance, law, consulting Очень высокая для агентов-«работников», не только coding. 480 задач с файлами и инструментами; AA прогоняет 452 public tasks. [9]
5 LMArena Text / Code / Agent Слепые human-preference баттлы Высокая как общий sanity check, не как единственный источник. Text, Code и Agent держать раздельно. [4]
6 Artificial Analysis LLM Leaderboard Intelligence index, скорость, latency, цена, контекст Очень полезен для практического рейтинга, особенно по скорости и цене. [1]
7 BFCL V4 Function calling / tool calling Независимая проверка точности tool-use. V4 - holistic agentic evaluation. [10]
8 OSWorld Computer-use задачи в реальной ОС Полезен для GUI/browser/computer-use агентов. 369 real-world задач. [11]
9 WebArena / VisualWebArena / Infinity Автономные web-агенты Для browser-агентов и работы с сайтами. [12]
10 Aider Polyglot Реальное редактирование кода без человека Практический coding sanity check, особенно для pair-programming. [13]
11 CodeClash Goal-oriented software engineering, не только unit-тесты Новый тип оценки: модели соревнуются, улучшая кодовую базу по раундам. [14]
12 GAIA / HAL Общие задачи с tools, web, multimodality Исторически важен, но обновления leaderboard приостановлены - беру как secondary signal. [15]
13 HLE / GPQA Diamond / LiveBench Общее reasoning/knowledge качество Общий контроль, не замена агентным бенчмаркам.
14 MERA Русскоязычная оценка моделей Нужен, если отдельный критерий - качество на русском. Независимая unified evaluation для русского. [16]
15 RULER / long-context Длинный контекст, retrieval, устойчивость к потере информации Нужен при выборе под большие репозитории и документы. [17]

Схема композитного рейтинга

Один усреднённый балл по всем колонкам смысла не имеет. Веса, по которым я ранжирую:

И отдельно помечаю, модель это или связка «модель + agent harness».

Top-21: модели и агенты

Скорость читать по разделу «Как читать скорость» выше. В колонке: tok/s - output speed; TTFT - до первого токена (у reasoning-моделей включает thinking-time и сильно падает при его отключении); total - полное время ответа по Artificial Analysis.

# Модель / агент Тип Почему в рейтинге Скорость / отклик Практическая роль
1 Claude Fable 5 (недоступна) Closed, suspended Формально #1 по качеству: топ Artificial Analysis Intelligence (~61), #1 LMArena Text до отключения. Но с 12 июня 2026 offline - export-control directive США, Anthropic отключил Fable 5 и Mythos 5 глобально, даты возврата нет. [3][23][24] Недоступна для вызова (instant и reasoning - неважно) Эталон качества «на бумаге»; пользоваться сейчас нельзя - см. Opus 4.8 / GPT-5.5
2 Claude Opus 4.8 Closed Один из сильнейших agentic/coding: Terminal-Bench 2.1 = 84.6% по AA; Anthropic позиционирует Opus 4.8 для complex reasoning и long-horizon agentic coding. [6] ~63 tok/s, TTFT ~30.0s, total ~37.9s. [1] Лучший тяжёлый агент для кода и автономной работы
3 GPT-5.5 / xHigh + Codex Closed + Agent SOTA agentic coding: Terminal-Bench 2.0 = 82.7%, SWE-bench Pro = 58.6%, AA даёт xHigh ~84.3% на Terminal-Bench 2.1; SWE-bench Pro лидер по repo-задачам (Opus 4.8 = 69.2%, GPT-5.5 = 58.6%). По доступным моделям - верх рейтинга. [18] High: ~62 tok/s, TTFT ~28s (reasoning, включает thinking); xHigh ещё медленнее по первому ответу. Output - не сильная сторона. [1] Terminal/coding-агент, Codex workflows, большие рефакторы
4 Gemini 3.5 Flash Closed, Flash-tier Лидер по скорости/цене и по MCP Atlas (83.6%, выше GPT-5.5 и Opus 4.8). Но числа - самоотчёт Google; по независимому AA Intelligence ~55.3 ниже Opus 4.8/GPT-5.5, на SWE-bench Pro 55.1% ниже даже Opus 4.7, и ревьюеры отмечают высокий процент галлюцинаций. Flash-tier, играющий выше класса. [2][19][25] ~173 tok/s (output - очень быстро); TTFT ~22s по умолчанию из-за dynamic thinking, ~17-19s при thinking_budget:0. [1] Быстрый дешёвый default для высокочастотных и MCP-задач; не для reliability-critical кода без ревью
5 GLM-5.2 (Max effort) Open-weight / MIT Лучший open-weight по независимому AA Intelligence Index (~51); SWE-bench Pro 62.1 обходит GPT-5.5 (58.6); Terminal-Bench 2.1 = 81.0, MCP Atlas ~76.8 (числа Z.ai). «Max» - уровень усилия, не отдельная модель. [1] ~133 tok/s, TTFT ~1.45s (меньше thinking по умолчанию). [1] Лучший self-host / open-weight кандидат
6 Claude Sonnet 5 Closed Сильный агент по коду: SWE-bench Pro 63.2 (выше GLM-5.2 62.1, GPT-5.5 58.6, Flash 55.1; ниже только Opus 4.8 69.2), Terminal-Bench 2.1 = 80.4, OSWorld 81.2; на GDPval-AA v2 (1618 vs 1615) и HLE-with-tools (57.4 vs 57.9) вровень с Opus 4.8. AA Intelligence Index 53 (#5 по индексу). Ниже Flash/GLM из-за практичности: дорогая по задаче и небыстрая. [35][36] low/medium ~52-56 tok/s, TTFT ~1.0s; high/xhigh/max output ~58/71/85 tok/s, но задержка до первого answer-токена с thinking 20.7/28.5/150.6s (это не «чистый TTFT»). [35][36] Сильный Claude Code default вместо Sonnet 4.6; не замена Opus 4.8
7 Claude Opus 4.7 Closed Сильный reasoning-вариант: Opus 4.7 Thinking у верхушки LMArena Text Overall, высокий Intelligence Index. [4] Max: ~49 tok/s, TTFT ~18.8s, total ~29.1s. [1] Надёжный reasoning, fallback
8 Gemini 3.1 Pro Preview Closed Сильная general/multimodal: высокая позиция в LMArena Text Overall, хороший баланс speed/quality. [4] ~137 tok/s, TTFT ~22.8s, total ~26.4s. [1] General reasoning, multimodal, long-context
9 Qwen3.7 Max Open-weight / China stack Высокая скорость, низкая цена, сильная общая позиция в AA; замена «Qwen3.5 Max». [1] ~197 tok/s, TTFT ~2.49s, total ~17.25s. [1] Быстрый дешёвый general/coding/multilingual слой
10 Claude Sonnet 4.6 Closed Важна для Claude Code: Anthropic позиционирует Sonnet как лучшее сочетание intelligence и скорости. [20] В Max-режиме AA медленно: ~55 tok/s, TTFT ~103s; в low/medium effort - более быстрый рабочий вариант. [1] Повседневный coding-агент, баланс цены и качества
11 Kimi K2.6 Open-weight Moonshot: SWE-bench Verified = 80.2, SWE-bench Pro = 58.6, OSWorld Verified = 73.1, Terminal-Bench 2.0 = 66.7. [21] ~83 tok/s, TTFT ~2.68s, total ~62.7s. [1] Open-weight агент для кода и длинных tool-chain задач
12 Kimi K2.7 Code Open-weight / coding Новая coding-ветка; LMArena добавила K2.7 Code в Code 15 июня 2026. Независимых агентных результатов пока меньше. [22] ~62 tok/s, TTFT ~2.28s, total ~46.6s. [1] Watchlist для coding-агента и MCP workflows
13 MiniMax-M3 Open-weight / low-cost Высокий Intelligence Index при очень низком blended cost. [1] ~96 tok/s, TTFT ~2.08s, total ~28.0s. [1] Бюджетный агент, browser/GUI эксперименты
14 DeepSeek V4 Pro / Pro Max Open-weight / low-cost Сильный price/performance: рядом с MiniMax-M3 по Intelligence Index при очень низкой цене. [1] Pro Max: ~91 tok/s, TTFT ~1.73s; Pro High: ~85 tok/s, TTFT ~1.84s. [1] Экономичный reasoning/coding layer
15 GPT-5.3 Codex xHigh Closed + Agent Отдельный агентный режим, но для нового рейтинга GPT-5.5 обычно предпочтительнее. [1] ~100 tok/s, TTFT ~82.8s, total ~87.8s. [1] Codex workflows, если нужен именно этот стек
16 Muse Spark Closed / tool-agent В MCP Atlas рядом с Opus 4.8 и Fable 5 по tool-use, но публичной speed-картины меньше. [8] Недостаточно независимых speed-данных Watchlist для tool orchestration
17 Grok Build 0.1 / Grok 4.20 beta Closed Grok Build 0.1 в AA с очень низким TTFT; Grok 4.20 beta reasoning - в верхней части LMArena Text Overall. [1] Grok Build 0.1: ~98 tok/s, TTFT ~0.54s, total ~26.0s. [1] Быстрый build/webdev экспериментальный слой
18 Nex-N2-Pro Closed / low-latency Неплохой speed/value в AA, меньше независимых агентных сигналов. [1] ~81 tok/s, TTFT ~1.71s, total ~32.5s. [1] Быстрый недорогой general layer
19 MiMo-V2.5-Pro Open / China stack Сильный low-cost по Intelligence Index, но без агентного веса GLM/Kimi/DeepSeek. [1] ~50 tok/s, TTFT ~2.47s, total ~52.3s. [1] Бюджетный reasoning, fallback
20 GPT-5.4 mini xHigh Closed / fast small Не топовая агентная, но полезна как быстрый routing/fallback слой. [1] ~182 tok/s, TTFT ~7.0s, total ~9.75s. [1] Быстрые промежуточные задачи, summarization, routing
21 DeepSeek V4 Flash Max Open-weight / ultra-low-cost Не лидер по сложной агентности, но крайне дешёвый и быстрый для массовых задач. [1] ~107 tok/s, TTFT ~1.42s, total ~58.4s. [1] Массовый дешёвый inference, fallback

Цены: API (за 1M токенов)

Стандартный тариф, USD, input / output. «Blended» - смешанная цена при типичном соотношении 3:1 (вход:выход), как считает Artificial Analysis.

Модель Input Output Blended 3:1 Примечание
Claude Opus 4.8 $5.00 $25.00 $10.00 cache read $0.50; Fast mode $10/$50
Claude Sonnet 5 $3.00 $15.00 $6.00 интро $2/$10 до 31.08.2026; токенайзер +~30%, cost-per-task ~2x Sonnet 4.6
Claude Sonnet 4.6 $3.00 $15.00 $6.00 cache read $0.30
GPT-5.5 $3.00 $15-30 $6.0-9.8 источники расходятся по output
Gemini 3.1 Pro $2.00 $12.00 $4.50 >200K токенов: $4/$18
Gemini 3.5 Flash $1.50 $9.00 $3.38 cache $0.15
GLM-5.2 (open) $1.40 $4.40 $2.15 MIT, self-host бесплатно
DeepSeek V4 Pro (open) ~$1.48 ~$3.30 $1.94 open-weight
Qwen3.7 Max (open) ~$1.25 ~$3.75 $1.88 1M контекст
Kimi K2.6 (open) $0.60 $3.20 $1.25 дёшево
DeepSeek V4 Flash (open) $0.14 $0.28 $0.18 самый дешёвый API

Средние по API:

Цены: подписки (в месяц)

Общие чат-подписки:

Сервис Базовая Премиум
ChatGPT Plus $20 (Go $8) Pro $200
Claude Pro $20 Max 5x $100 / 20x $200
Google Gemini AI Pro $19.99 AI Ultra $249.99
Perplexity Pro $20 -
xAI Grok SuperGrok $30 Heavy $300

Средняя базовая ~$22/мес (рынок сошёлся на $20, Grok дороже). Средний премиум-флагман ~$237/мес.

Coding-подписки (агенты и IDE):

Инструмент Free Pro Power
GitHub Copilot да (2000 compl) $10 Pro+ $39 / Max ~$100
Cursor лимит $20 Pro+ $60 / Ultra $200
Windsurf да $20 Max $200
Claude Code - в Claude Pro $20 Max 5x $100 / 20x $200
OpenAI Codex да (ChatGPT Free / CLI) в ChatGPT Plus $20 Pro 5x $100 / 20x $200; API per-token
OpenCode да (MIT, BYOK) - -
OpenCode Zen free-модели PAYG $20 prepaid, ~0 markup -
OpenCode Go - $5 первый месяц (интро), далее $10 -

Средняя coding-Pro ~$17/мес (Copilot и OpenCode Go по $10 тянут вниз; Cursor / Windsurf / Claude Code / Codex по $20). Важно: Codex входит в ChatGPT-подписки, а Claude Code - в Claude Pro/Max, то есть это не отдельная плата поверх чат-подписки, и у обоих лимиты на 5-часовом окне. Power-уровень - $100-200 почти везде. У части сервисов вход дешевле повторной цены за счёт промо на первый месяц (у OpenCode Go - $5 против $10 дальше), поэтому первый счёт не равен постоянному. [26][29][30][31][32][33]

Какие подписки оптимальны

Оптимально:

Неоптимально и ловушки:

Оптимальные связки (так делает большинство): Cursor (IDE) + Claude Code (терминал для сложного); или Copilot $10 (IDE) + OpenCode либо Claude Code (терминал). Бюджетный максимум - OpenCode + OpenCode Go $10 на открытых моделях.

Практический вывод

Где источники расходятся, держусь независимого Artificial Analysis Intelligence Index и помечаю vendor-reported числа. Главные акценты: GLM-5.2 - лучший open-weight/self-host; Gemini 3.5 Flash - чемпион скорости и цены, но не универсальный топ; а первое место Fable 5 - историческое: до снятия экспортных ограничений модель недоступна.

Источники

  1. Artificial Analysis - LLM Leaderboard. https://artificialanalysis.ai/leaderboards/models
  2. Google - Gemini 3.5: frontier intelligence with action. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
  3. Anthropic - Introducing Claude Fable 5 and Claude Mythos 5. https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5
  4. LMArena - Text Leaderboard. https://arena.ai/leaderboard/text
  5. Terminal-Bench. https://www.tbench.ai/
  6. Artificial Analysis - Terminal-Bench v2.1. https://artificialanalysis.ai/evaluations/terminalbench-v2-1
  7. SWE-bench Leaderboards. https://www.swebench.com/
  8. Scale Labs - MCP Atlas Leaderboard. https://labs.scale.com/leaderboard/mcp_atlas
  9. Mercor - APEX-Agents Leaderboard. https://www.mercor.com/apex/apex-agents-leaderboard/
  10. Berkeley Function Calling Leaderboard (BFCL) V4. https://gorilla.cs.berkeley.edu/leaderboard.html
  11. OSWorld. https://os-world.github.io/
  12. WebArena. https://webarena.dev/
  13. Aider LLM Leaderboards. https://aider.chat/docs/leaderboards/
  14. CodeClash. https://codeclash.ai/
  15. HAL - GAIA Leaderboard. https://hal.cs.princeton.edu/gaia
  16. MERA (Multimodal Evaluation for Russian). https://github.com/MERA-Evaluation/MERA
  17. NVIDIA RULER. https://github.com/NVIDIA/RULER
  18. OpenAI - Introducing GPT-5.5. https://openai.com/index/introducing-gpt-5-5/
  19. Google DeepMind - Gemini 3.5 Flash Model Card. https://deepmind.google/models/model-cards/gemini-3-5-flash/
  20. Anthropic - Models overview. https://platform.claude.com/docs/en/about-claude/models/overview
  21. Kimi K2.6 Tech Blog. https://www.kimi.com/blog/kimi-k2-6
  22. LMArena - Leaderboard Changelog. https://news.lmarena.ai/leaderboard-changelog/
  23. Forbes - Anthropic Disabled Fable 5 and Mythos 5 After a U.S. Export-Control Order. https://www.forbes.com/sites/anishasircar/2026/06/16/anthropic-disabled-fable-5-and-mythos-5-after-a-us-export-control-order-heres-what-happened/
  24. Greenberg Traurig - Anthropic Suspends Access to Claude Fable 5 and Mythos 5. https://www.gtlaw.com/en/insights/2026/6/ai-company-anthropic-suspends-access-to-claude-fable-5-claude-mythos-5-following-us-export-control-directive
  25. Vals.ai - Terminal-Bench 2.1 (independent harness). https://www.vals.ai/benchmarks/terminal-bench-2-1
  26. Anthropic - Claude Platform Pricing. https://platform.claude.com/docs/en/about-claude/pricing
  27. Google - Gemini API Pricing. https://ai.google.dev/gemini-api/docs/pricing
  28. Artificial Analysis - Models (price comparison). https://artificialanalysis.ai/models
  29. AI Subscription Pricing Comparison 2026. https://www.aipricing.guru/subscriptions/
  30. Developers Digest - AI Coding Tools Pricing 2026. https://www.developersdigest.tech/blog/ai-coding-tools-pricing-2026
  31. OpenCode Go. https://opencode.ai/go
  32. morphllm - AI Coding Costs 2026. https://www.morphllm.com/ai-coding-costs
  33. OpenAI - Codex Pricing. https://developers.openai.com/codex/pricing
  34. morphllm - Codex vs Claude Code (limits comparison). https://www.morphllm.com/comparisons/codex-vs-claude-code
  35. Anthropic - Introducing Claude Sonnet 5. https://www.anthropic.com/news/claude-sonnet-5
  36. Artificial Analysis - Claude Sonnet 5: strong agentic performance at a higher cost per task. https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost