Рейтинг LLM и агентов: независимая пересборка

Снимок на 30 июня 2026, числа сверены по перечисленным источникам. Практический shortlist: какие модели одновременно сильны в агентной работе, коде и tool-use и при этом дают вменяемую скорость. Это не «математически доказанный» рейтинг, а рабочая картина. Ниже также цены API, цены подписок и разбор, какие подписки оптимальны (включая OpenCode Go). Источники пронумерованы и собраны в конце.

Важно по составу. Claude Fable 5 формально остаётся #1 по качеству, но с 12 июня 2026 он недоступен: по export-control directive Министерства торговли США Anthropic отключил Fable 5 и Mythos 5 глобально, дата возврата не объявлена. Реально доступный верх - Claude Opus 4.8 и GPT-5.5. [3][23][24]

Новое: Claude Sonnet 5 (30 июня 2026, claude-sonnet-5) - сразу на #6. Сильна по коду и tool-use, вровень с Opus 4.8 на knowledge-work, но небыстрая и дорогая по задаче (cost-per-task ~2x Sonnet 4.6, ~15% выше Opus 4.8), поэтому ниже Gemini 3.5 Flash и GLM-5.2. Стала дефолтом Claude Code вместо Sonnet 4.6. [35][36]

Методология: что нельзя смешивать

Большинство ошибок в таких рейтингах идёт от смешивания несопоставимых вещей.

Версии бенчмарков. Terminal-Bench 2.0 и 2.1 - не одно и то же. 2.1 - это отдельный verified refresh на 89 curated tasks, и Artificial Analysis прогоняет его собственной реализацией через harness Terminus 2. Числа 2.0 и 2.1 в одной колонке искажают рейтинг. [5]
Модель против связки «модель + harness». GPT-5.5 как API-модель и GPT-5.5 внутри Codex CLI - это разные практические продукты, их помечаю отдельно.
Скорость - это не одно число. Artificial Analysis даёт отдельно output speed (tok/s), TTFT и total response. Критично: TTFT у reasoning-моделей включает время «размышления», поэтому значения в 20-100s - это не задержка до первого токена в обычном смысле, а thinking-time. При выключенном thinking или в instant-режиме реальный TTFT падает до долей секунды (Kimi K2.6 - ~0.53s instant против многосекундного reasoning). Честнее всего сравнивать по output tok/s. Подробнее - в разделе «Как читать скорость». [1]
LMArena ELO берётся по категории. В Text Overall и в Code Arena у одной и той же модели разные позиции и разная группа сравнения. Сводить их в одну колонку без категории нельзя. [4]
Один прогон - не истина в последней инстанции. Terminal-Bench 2.1 сильно зависит от harness: у Opus 4.8 это 84.6% по Artificial Analysis, но 71.9% по Vals.ai и 82.7% по самоотчёту Anthropic. Числа Terminal-Bench в таблице ниже - конкретный прогон AA, а не абсолютная истина. [6][25]

Несколько точечных правок к ходовым спискам:

«Qwen3.5 Max» в актуальных независимых списках уже не фигурирует - есть Qwen3.7 Max / Max Preview (около 197 tok/s, TTFT ~2.49s). [1]
Gemini 3.5 Flash - реальная agentic/coding-модель, но её громкие числа (Terminal-Bench 2.1 = 76.2%, MCP Atlas = 83.6%, OSWorld-Verified = 78.4%) - самоотчёт Google, не независимый прогон. По независимому Intelligence Index Artificial Analysis она ~55.3 - ниже Opus 4.8 (61.4) и GPT-5.5 (~59), но дешевле примерно на 70% и кратно быстрее. На SWE-bench Pro у неё 55.1% - ниже даже прошлого Opus 4.7 (64.3%), и независимые ревьюеры отмечают высокий процент галлюцинаций. Это Flash-tier, играющий выше своего класса; tier-ровня - будущий Gemini 3.5 Pro. [2][19][25]
Claude Fable 5 на 30 июня - suspended, не «GA». 12 июня 2026 Министерство торговли США выпустило export-control directive, и Anthropic глобально отключил Fable 5 и Mythos 5; на 25-26 июня модель всё ещё offline, даты возврата нет. Прошлая пометка «GA без оговорок» неверна. [3][23][24]

Как читать скорость

Скорость - не одна цифра, и большинство рейтингов её путают.

Output speed (tok/s) - сколько токенов в секунду модель генерирует. Самая стабильная и сравнимая метрика. Frontier-reasoning модели тут НЕ лидеры: Opus 4.8 и GPT-5.5 идут по ~60 tok/s, тогда как Gemini 3.5 Flash - ~173 tok/s, а диффузионный Mercury 2 - 950+ tok/s.
TTFT (time to first token) - задержка до первого токена. У reasoning- моделей Artificial Analysis включает в TTFT время размышления, поэтому в таблицах встречаются «TTFT 20-100s». Это не значит, что ответа ждёшь полторы минуты: при thinking_budget:0 или в instant-режиме реальный TTFT падает до ~0.5-5s. Gemini 3.5 Flash: ~22s по умолчанию (dynamic thinking on) против ~17-19s при выключенном thinking.
Total response - полное время до конца ответа; зависит и от объёма «мыслей», и от длины ответа.

По скорости на практике: для latency-чувствительных и высокочастотных задач берут Flash-tier (Gemini 3.5 Flash ~173 tok/s; Gemini 3.1 Flash-Lite ~316 tok/s, TTFT ~5s) или совсем лёгкие модели; самый низкий TTFT (<600ms) - у Gemini 2.5 Flash и Claude Haiku 4.5. Тяжёлые reasoning-агенты (Opus 4.8, GPT-5.5, Fable 5) берут не скоростью, а качеством. [1]

Бенчмарки, взятые за ядро рейтинга

Приоритет	Бенчмарк / источник	Что меряет	Польза для задачи
1	Terminal-Bench 2.1	Работа terminal-агента: shell, DevOps, data, security, model training	Очень высокая. Один из лучших тестов именно для agentic terminal work. [6]
2	SWE-bench Verified / Pro	Исправление реальных GitHub-задач	Очень высокая. Verified - human-filtered 500 задач, уже частично насыщен; Pro - более жёсткая добавка. [7]
3	MCP Atlas	Tool-use через MCP, вызовы инструментов, multi-step workflow	Очень высокая для агентных систем с инструментами. Публичный leaderboard, tool budget, scoring judge. [8]
4	APEX-Agents	Long-horizon офисные/профессиональные задачи: finance, law, consulting	Очень высокая для агентов-«работников», не только coding. 480 задач с файлами и инструментами; AA прогоняет 452 public tasks. [9]
5	LMArena Text / Code / Agent	Слепые human-preference баттлы	Высокая как общий sanity check, не как единственный источник. Text, Code и Agent держать раздельно. [4]
6	Artificial Analysis LLM Leaderboard	Intelligence index, скорость, latency, цена, контекст	Очень полезен для практического рейтинга, особенно по скорости и цене. [1]
7	BFCL V4	Function calling / tool calling	Независимая проверка точности tool-use. V4 - holistic agentic evaluation. [10]
8	OSWorld	Computer-use задачи в реальной ОС	Полезен для GUI/browser/computer-use агентов. 369 real-world задач. [11]
9	WebArena / VisualWebArena / Infinity	Автономные web-агенты	Для browser-агентов и работы с сайтами. [12]
10	Aider Polyglot	Реальное редактирование кода без человека	Практический coding sanity check, особенно для pair-programming. [13]
11	CodeClash	Goal-oriented software engineering, не только unit-тесты	Новый тип оценки: модели соревнуются, улучшая кодовую базу по раундам. [14]
12	GAIA / HAL	Общие задачи с tools, web, multimodality	Исторически важен, но обновления leaderboard приостановлены - беру как secondary signal. [15]
13	HLE / GPQA Diamond / LiveBench	Общее reasoning/knowledge качество	Общий контроль, не замена агентным бенчмаркам.
14	MERA	Русскоязычная оценка моделей	Нужен, если отдельный критерий - качество на русском. Независимая unified evaluation для русского. [16]
15	RULER / long-context	Длинный контекст, retrieval, устойчивость к потере информации	Нужен при выборе под большие репозитории и документы. [17]

Схема композитного рейтинга

Один усреднённый балл по всем колонкам смысла не имеет. Веса, по которым я ранжирую:

40% - agentic coding / terminal: Terminal-Bench 2.1, SWE-bench Pro, SWE-bench Verified, Aider, CodeClash.
25% - tool / workflow агенты: MCP Atlas, APEX-Agents, BFCL, OSWorld, WebArena.
20% - общее качество: Artificial Analysis Intelligence, LMArena Text/Code/Agent, HLE/GPQA/LiveBench.
15% - практичность: скорость, TTFT, total response, цена, context window, лицензия и возможность self-host.

И отдельно помечаю, модель это или связка «модель + agent harness».

Top-21: модели и агенты

Скорость читать по разделу «Как читать скорость» выше. В колонке: tok/s - output speed; TTFT - до первого токена (у reasoning-моделей включает thinking-time и сильно падает при его отключении); total - полное время ответа по Artificial Analysis.

#	Модель / агент	Тип	Почему в рейтинге	Скорость / отклик	Практическая роль
1	Claude Fable 5 (недоступна)	Closed, suspended	Формально #1 по качеству: топ Artificial Analysis Intelligence (~61), #1 LMArena Text до отключения. Но с 12 июня 2026 offline - export-control directive США, Anthropic отключил Fable 5 и Mythos 5 глобально, даты возврата нет. [3][23][24]	Недоступна для вызова (instant и reasoning - неважно)	Эталон качества «на бумаге»; пользоваться сейчас нельзя - см. Opus 4.8 / GPT-5.5
2	Claude Opus 4.8	Closed	Один из сильнейших agentic/coding: Terminal-Bench 2.1 = 84.6% по AA; Anthropic позиционирует Opus 4.8 для complex reasoning и long-horizon agentic coding. [6]	~63 tok/s, TTFT ~30.0s, total ~37.9s. [1]	Лучший тяжёлый агент для кода и автономной работы
3	GPT-5.5 / xHigh + Codex	Closed + Agent	SOTA agentic coding: Terminal-Bench 2.0 = 82.7%, SWE-bench Pro = 58.6%, AA даёт xHigh ~84.3% на Terminal-Bench 2.1; SWE-bench Pro лидер по repo-задачам (Opus 4.8 = 69.2%, GPT-5.5 = 58.6%). По доступным моделям - верх рейтинга. [18]	High: ~62 tok/s, TTFT ~28s (reasoning, включает thinking); xHigh ещё медленнее по первому ответу. Output - не сильная сторона. [1]	Terminal/coding-агент, Codex workflows, большие рефакторы
4	Gemini 3.5 Flash	Closed, Flash-tier	Лидер по скорости/цене и по MCP Atlas (83.6%, выше GPT-5.5 и Opus 4.8). Но числа - самоотчёт Google; по независимому AA Intelligence ~55.3 ниже Opus 4.8/GPT-5.5, на SWE-bench Pro 55.1% ниже даже Opus 4.7, и ревьюеры отмечают высокий процент галлюцинаций. Flash-tier, играющий выше класса. [2][19][25]	~173 tok/s (output - очень быстро); TTFT ~22s по умолчанию из-за dynamic thinking, ~17-19s при `thinking_budget:0`. [1]	Быстрый дешёвый default для высокочастотных и MCP-задач; не для reliability-critical кода без ревью
5	GLM-5.2 (Max effort)	Open-weight / MIT	Лучший open-weight по независимому AA Intelligence Index (~51); SWE-bench Pro 62.1 обходит GPT-5.5 (58.6); Terminal-Bench 2.1 = 81.0, MCP Atlas ~76.8 (числа Z.ai). «Max» - уровень усилия, не отдельная модель. [1]	~133 tok/s, TTFT ~1.45s (меньше thinking по умолчанию). [1]	Лучший self-host / open-weight кандидат
6	Claude Sonnet 5	Closed	Сильный агент по коду: SWE-bench Pro 63.2 (выше GLM-5.2 62.1, GPT-5.5 58.6, Flash 55.1; ниже только Opus 4.8 69.2), Terminal-Bench 2.1 = 80.4, OSWorld 81.2; на GDPval-AA v2 (1618 vs 1615) и HLE-with-tools (57.4 vs 57.9) вровень с Opus 4.8. AA Intelligence Index 53 (#5 по индексу). Ниже Flash/GLM из-за практичности: дорогая по задаче и небыстрая. [35][36]	low/medium ~52-56 tok/s, TTFT ~1.0s; high/xhigh/max output ~58/71/85 tok/s, но задержка до первого answer-токена с thinking 20.7/28.5/150.6s (это не «чистый TTFT»). [35][36]	Сильный Claude Code default вместо Sonnet 4.6; не замена Opus 4.8
7	Claude Opus 4.7	Closed	Сильный reasoning-вариант: Opus 4.7 Thinking у верхушки LMArena Text Overall, высокий Intelligence Index. [4]	Max: ~49 tok/s, TTFT ~18.8s, total ~29.1s. [1]	Надёжный reasoning, fallback
8	Gemini 3.1 Pro Preview	Closed	Сильная general/multimodal: высокая позиция в LMArena Text Overall, хороший баланс speed/quality. [4]	~137 tok/s, TTFT ~22.8s, total ~26.4s. [1]	General reasoning, multimodal, long-context
9	Qwen3.7 Max	Open-weight / China stack	Высокая скорость, низкая цена, сильная общая позиция в AA; замена «Qwen3.5 Max». [1]	~197 tok/s, TTFT ~2.49s, total ~17.25s. [1]	Быстрый дешёвый general/coding/multilingual слой
10	Claude Sonnet 4.6	Closed	Важна для Claude Code: Anthropic позиционирует Sonnet как лучшее сочетание intelligence и скорости. [20]	В Max-режиме AA медленно: ~55 tok/s, TTFT ~103s; в low/medium effort - более быстрый рабочий вариант. [1]	Повседневный coding-агент, баланс цены и качества
11	Kimi K2.6	Open-weight	Moonshot: SWE-bench Verified = 80.2, SWE-bench Pro = 58.6, OSWorld Verified = 73.1, Terminal-Bench 2.0 = 66.7. [21]	~83 tok/s, TTFT ~2.68s, total ~62.7s. [1]	Open-weight агент для кода и длинных tool-chain задач
12	Kimi K2.7 Code	Open-weight / coding	Новая coding-ветка; LMArena добавила K2.7 Code в Code 15 июня 2026. Независимых агентных результатов пока меньше. [22]	~62 tok/s, TTFT ~2.28s, total ~46.6s. [1]	Watchlist для coding-агента и MCP workflows
13	MiniMax-M3	Open-weight / low-cost	Высокий Intelligence Index при очень низком blended cost. [1]	~96 tok/s, TTFT ~2.08s, total ~28.0s. [1]	Бюджетный агент, browser/GUI эксперименты
14	DeepSeek V4 Pro / Pro Max	Open-weight / low-cost	Сильный price/performance: рядом с MiniMax-M3 по Intelligence Index при очень низкой цене. [1]	Pro Max: ~91 tok/s, TTFT ~1.73s; Pro High: ~85 tok/s, TTFT ~1.84s. [1]	Экономичный reasoning/coding layer
15	GPT-5.3 Codex xHigh	Closed + Agent	Отдельный агентный режим, но для нового рейтинга GPT-5.5 обычно предпочтительнее. [1]	~100 tok/s, TTFT ~82.8s, total ~87.8s. [1]	Codex workflows, если нужен именно этот стек
16	Muse Spark	Closed / tool-agent	В MCP Atlas рядом с Opus 4.8 и Fable 5 по tool-use, но публичной speed-картины меньше. [8]	Недостаточно независимых speed-данных	Watchlist для tool orchestration
17	Grok Build 0.1 / Grok 4.20 beta	Closed	Grok Build 0.1 в AA с очень низким TTFT; Grok 4.20 beta reasoning - в верхней части LMArena Text Overall. [1]	Grok Build 0.1: ~98 tok/s, TTFT ~0.54s, total ~26.0s. [1]	Быстрый build/webdev экспериментальный слой
18	Nex-N2-Pro	Closed / low-latency	Неплохой speed/value в AA, меньше независимых агентных сигналов. [1]	~81 tok/s, TTFT ~1.71s, total ~32.5s. [1]	Быстрый недорогой general layer
19	MiMo-V2.5-Pro	Open / China stack	Сильный low-cost по Intelligence Index, но без агентного веса GLM/Kimi/DeepSeek. [1]	~50 tok/s, TTFT ~2.47s, total ~52.3s. [1]	Бюджетный reasoning, fallback
20	GPT-5.4 mini xHigh	Closed / fast small	Не топовая агентная, но полезна как быстрый routing/fallback слой. [1]	~182 tok/s, TTFT ~7.0s, total ~9.75s. [1]	Быстрые промежуточные задачи, summarization, routing
21	DeepSeek V4 Flash Max	Open-weight / ultra-low-cost	Не лидер по сложной агентности, но крайне дешёвый и быстрый для массовых задач. [1]	~107 tok/s, TTFT ~1.42s, total ~58.4s. [1]	Массовый дешёвый inference, fallback

Цены: API (за 1M токенов)

Стандартный тариф, USD, input / output. «Blended» - смешанная цена при типичном соотношении 3:1 (вход:выход), как считает Artificial Analysis.

Модель	Input	Output	Blended 3:1	Примечание
Claude Opus 4.8	$5.00	$25.00	$10.00	cache read $0.50; Fast mode $10/$50
Claude Sonnet 5	$3.00	$15.00	$6.00	интро $2/$10 до 31.08.2026; токенайзер +~30%, cost-per-task ~2x Sonnet 4.6
Claude Sonnet 4.6	$3.00	$15.00	$6.00	cache read $0.30
GPT-5.5	$3.00	$15-30	$6.0-9.8	источники расходятся по output
Gemini 3.1 Pro	$2.00	$12.00	$4.50	>200K токенов: $4/$18
Gemini 3.5 Flash	$1.50	$9.00	$3.38	cache $0.15
GLM-5.2 (open)	$1.40	$4.40	$2.15	MIT, self-host бесплатно
DeepSeek V4 Pro (open)	~$1.48	~$3.30	$1.94	open-weight
Qwen3.7 Max (open)	~$1.25	~$3.75	$1.88	1M контекст
Kimi K2.6 (open)	$0.60	$3.20	$1.25	дёшево
DeepSeek V4 Flash (open)	$0.14	$0.28	$0.18	самый дешёвый API

Средние по API:

Closed frontier (Opus 4.8, Sonnet 5, Sonnet 4.6, GPT-5.5, Gemini Pro/Flash): ~$2.90 input / $15.20 output, blended ~$6.0/M. Оговорка по Sonnet 5: низкая цена за токен обманчива - из-за токен-bloat реальная цена задачи одна из самых высоких (2-е место после Fable 5). [36]
Open-weight (GLM-5.2, Qwen3.7, Kimi K2.6, DeepSeek V4 Pro): ~$1.18 input / $3.66 output, blended ~$1.8/M.
Открытые модели по API в среднем ~в 3 раза дешевле, а self-host убирает per-token счёт совсем. [1][26][27][28]

Цены: подписки (в месяц)

Общие чат-подписки:

Сервис	Базовая	Премиум
ChatGPT	Plus $20 (Go $8)	Pro $200
Claude	Pro $20	Max 5x $100 / 20x $200
Google Gemini	AI Pro $19.99	AI Ultra $249.99
Perplexity	Pro $20	-
xAI Grok	SuperGrok $30	Heavy $300

Средняя базовая ~$22/мес (рынок сошёлся на $20, Grok дороже). Средний премиум-флагман ~$237/мес.

Coding-подписки (агенты и IDE):

Инструмент	Free	Pro	Power
GitHub Copilot	да (2000 compl)	$10	Pro+ $39 / Max ~$100
Cursor	лимит	$20	Pro+ $60 / Ultra $200
Windsurf	да	$20	Max $200
Claude Code	-	в Claude Pro $20	Max 5x $100 / 20x $200
OpenAI Codex	да (ChatGPT Free / CLI)	в ChatGPT Plus $20	Pro 5x $100 / 20x $200; API per-token
OpenCode	да (MIT, BYOK)	-	-
OpenCode Zen	free-модели	PAYG $20 prepaid, ~0 markup	-
OpenCode Go	-	$5 первый месяц (интро), далее $10	-

Средняя coding-Pro ~$17/мес (Copilot и OpenCode Go по $10 тянут вниз; Cursor / Windsurf / Claude Code / Codex по $20). Важно: Codex входит в ChatGPT-подписки, а Claude Code - в Claude Pro/Max, то есть это не отдельная плата поверх чат-подписки, и у обоих лимиты на 5-часовом окне. Power-уровень - $100-200 почти везде. У части сервисов вход дешевле повторной цены за счёт промо на первый месяц (у OpenCode Go - $5 против $10 дальше), поэтому первый счёт не равен постоянному. [26][29][30][31][32][33]

Какие подписки оптимальны

Оптимально:

Самый дешёвый capable: GitHub Copilot Pro $10 - мульти-модель (включая Claude Opus), агент, code review. Лучшая цена среди коммерческих.
Самый дешёвый open-weight стек: OpenCode (free, MIT) + OpenCode Go ($5 первый месяц, далее $10) - терминальный агент на GLM-5.2 / Kimi K2.7 Code / Qwen3.7 / DeepSeek V4. Для тех, кому ок открытые модели, это лучшая цена/возможности 2026 и прямое продолжение вывода «GLM-5.2 - топ open-weight». [31]
$20 терминал: Codex (ChatGPT Plus) или Claude Code Pro - оба на 5-часовом окне, но за те же $20 Codex щедрее по лимитам (Plus: ~15-80 сообщений GPT-5.5 + 30-150 Codex + облачные задачи за 5ч; по 100-часовым сравнениям $20 Plus тянет то, что у Claude требует Max 5x за $100). Claude Code Pro выгорает за 15-30 минут (заявлен под лёгкую нагрузку), зато обычно сильнее по качеству кода и repo-рефакторам. Anthropic 6 мая 2026 удвоил лимиты Claude Code - воздуха больше, но не безлимит. С 30 июня 2026 Claude Code дефолтит на Sonnet 5 (дешевле за токен, но прожорливее по токенам, чем Sonnet 4.6). [33][34][35]
$20 IDE: Cursor Pro.
Тяжёлый ежедневный агент: Codex Pro 5x/20x ($100/$200), Claude Max 5x/20x ($100/$200) или Cursor Ultra $200 - предсказуемый потолок дешевле, чем API.

Неоптимально и ловушки:

API/BYOK при тяжёлом ежедневном использовании - непредсказуемо: легко $200-500+/мес, дороже самой дорогой подписки (репортят скачки $29→$750, $50→$3000). API выгоден только при лёгком или всплесковом использовании. [32]
Claude Code Pro $20 и Codex в ChatGPT Plus для хэви-нагрузки - оба на 5-часовом окне, бюджет кончается за 15-30 минут; де-факто нужен Claude Max или Codex Pro 5x/20x ($100/$200).
Переход на usage-based billing (Copilot с 1 июня 2026 - кредиты; Cursor и Windsurf - токены): «flat-rate мёртв», цена плана это входной билет, а не весь бюджет.
SuperGrok Heavy $300 и Google AI Ultra $250 - оправданы только под нишу (live-данные X, видео-генерация), иначе переплата.
Подписаться на всё (~$110/мес базово, ~$950/мес премиум) - расточительно; берут по своему workflow.

Оптимальные связки (так делает большинство): Cursor (IDE) + Claude Code (терминал для сложного); или Copilot $10 (IDE) + OpenCode либо Claude Code (терминал). Бюджетный максимум - OpenCode + OpenCode Go $10 на открытых моделях.

Практический вывод

Самый сильный по качеству: Claude Fable 5 (но сейчас offline) → из доступных Claude Opus 4.8 и GPT-5.5.
Быстрый рабочий default: Gemini 3.5 Flash - но это Flash-tier и с оговоркой по надёжности; для критичного кода всё равно Opus 4.8 / GPT-5.5.
Claude Code default: с 30 июня 2026 - Claude Sonnet 5 вместо Sonnet 4.6: сильнее по коду и tool-use, но дороже по задаче и небыстрая; для тяжёлого - всё равно Opus 4.8.
Open-weight / self-host: GLM-5.2 (Max effort) первым, затем Kimi K2.6 и K2.7 Code, затем DeepSeek V4 Pro и MiniMax-M3.
Дешёвый routing-стек: Qwen3.7 Max, DeepSeek V4 Pro, GPT-5.4 mini, DeepSeek V4 Flash.
Чистая скорость (output tok/s): Flash-tier и диффузионные модели, не frontier-reasoning - см. раздел «Как читать скорость».
Если рейтинг именно про agentic coding: связка Terminal-Bench 2.1 + SWE-bench Pro + MCP Atlas + APEX-Agents + output-скорость AA, а LMArena - как sanity check.

Где источники расходятся, держусь независимого Artificial Analysis Intelligence Index и помечаю vendor-reported числа. Главные акценты: GLM-5.2 - лучший open-weight/self-host; Gemini 3.5 Flash - чемпион скорости и цены, но не универсальный топ; а первое место Fable 5 - историческое: до снятия экспортных ограничений модель недоступна.

Источники

Artificial Analysis - LLM Leaderboard. https://artificialanalysis.ai/leaderboards/models
Google - Gemini 3.5: frontier intelligence with action. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
Anthropic - Introducing Claude Fable 5 and Claude Mythos 5. https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5
LMArena - Text Leaderboard. https://arena.ai/leaderboard/text
Terminal-Bench. https://www.tbench.ai/
Artificial Analysis - Terminal-Bench v2.1. https://artificialanalysis.ai/evaluations/terminalbench-v2-1
SWE-bench Leaderboards. https://www.swebench.com/
Scale Labs - MCP Atlas Leaderboard. https://labs.scale.com/leaderboard/mcp_atlas
Mercor - APEX-Agents Leaderboard. https://www.mercor.com/apex/apex-agents-leaderboard/
Berkeley Function Calling Leaderboard (BFCL) V4. https://gorilla.cs.berkeley.edu/leaderboard.html
OSWorld. https://os-world.github.io/
WebArena. https://webarena.dev/
Aider LLM Leaderboards. https://aider.chat/docs/leaderboards/
CodeClash. https://codeclash.ai/
HAL - GAIA Leaderboard. https://hal.cs.princeton.edu/gaia
MERA (Multimodal Evaluation for Russian). https://github.com/MERA-Evaluation/MERA
NVIDIA RULER. https://github.com/NVIDIA/RULER
OpenAI - Introducing GPT-5.5. https://openai.com/index/introducing-gpt-5-5/
Google DeepMind - Gemini 3.5 Flash Model Card. https://deepmind.google/models/model-cards/gemini-3-5-flash/
Anthropic - Models overview. https://platform.claude.com/docs/en/about-claude/models/overview
Kimi K2.6 Tech Blog. https://www.kimi.com/blog/kimi-k2-6
LMArena - Leaderboard Changelog. https://news.lmarena.ai/leaderboard-changelog/
Forbes - Anthropic Disabled Fable 5 and Mythos 5 After a U.S. Export-Control Order. https://www.forbes.com/sites/anishasircar/2026/06/16/anthropic-disabled-fable-5-and-mythos-5-after-a-us-export-control-order-heres-what-happened/
Greenberg Traurig - Anthropic Suspends Access to Claude Fable 5 and Mythos 5. https://www.gtlaw.com/en/insights/2026/6/ai-company-anthropic-suspends-access-to-claude-fable-5-claude-mythos-5-following-us-export-control-directive
Vals.ai - Terminal-Bench 2.1 (independent harness). https://www.vals.ai/benchmarks/terminal-bench-2-1
Anthropic - Claude Platform Pricing. https://platform.claude.com/docs/en/about-claude/pricing
Google - Gemini API Pricing. https://ai.google.dev/gemini-api/docs/pricing
Artificial Analysis - Models (price comparison). https://artificialanalysis.ai/models
AI Subscription Pricing Comparison 2026. https://www.aipricing.guru/subscriptions/
Developers Digest - AI Coding Tools Pricing 2026. https://www.developersdigest.tech/blog/ai-coding-tools-pricing-2026
OpenCode Go. https://opencode.ai/go
morphllm - AI Coding Costs 2026. https://www.morphllm.com/ai-coding-costs
OpenAI - Codex Pricing. https://developers.openai.com/codex/pricing
morphllm - Codex vs Claude Code (limits comparison). https://www.morphllm.com/comparisons/codex-vs-claude-code
Anthropic - Introducing Claude Sonnet 5. https://www.anthropic.com/news/claude-sonnet-5
Artificial Analysis - Claude Sonnet 5: strong agentic performance at a higher cost per task. https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost