Почему в экономике GenAI дешёвый токен дороже результата?
Date Published

Почему в экономике GenAI дешёвый токен дороже результата?
Экономика GenAI: TCO vs цена за токен и стоимость «мышления» — почему дешёвый токен не даёт дешёвый результат
Цена за токен кажется простой метрикой. Прайсы с рублями за 1 000 токенов создают ощущение прозрачности. Но они скрывают главное — полную стоимость владения и цену «мышления».
Моя позиция проста: при равном качестве выигрывает не самая «умная» модель, а та, где предсказуема стоимость результата и контролируемы риски. Это и есть реальная экономика GenAI.
Показательный пример: при 1 млн запросов в месяц YandexGPT Lite стоит около 300 000 ₽, Pro — около 1 200 000 ₽. Но аренда конфигурации с 8 A100 — около 3 169 323 ₽ в месяц. Эти расходы быстро перекрывают разницу в цене токена.
Отсюда ключевой вопрос: как перевести цену токена в цену результата и выбрать между managed API и self‑hosting без ошибок в бюджете.
Почему цена токена вводит в заблуждение
Выбор LLM часто сводят к цене за 1 000 токенов. Сравнения «0,2 ₽ vs 0,8 ₽» кажутся достаточными для решения.
Но токены отражают только прямые вычисления. Реальная стоимость включает аренду GPU, хранение, зарплаты и сопровождение. Например: аренда g2.8 с 8 A100 — около 3 169 323 ₽ в месяц, ML Engineer — ≈185 000 ₽ (в Москве ≈260 000 ₽).
При росте нагрузки эти статьи перекрывают разницу в цене токена.
Если опираться только на прайс токенов, легко выбрать решение с высокой суммарной стоимостью и непредсказуемыми рисками. Поэтому главный вопрос — как считать цену результата, а не цену токена.

Как считать реальную стоимость LLM
Как это работает
Токен — это единица вычислений, а не итоговая стоимость. LLM работают как инфраструктура: к цене токена добавляются железо, хранение и люди.
Каждый запрос тянет за собой операции: развертывание, мониторинг, дообучение, хранение эмбеддингов, повторные вызовы. Эти расходы растут вместе системой, а не только с числом токенов.
Почему цена токена искажает картину
YandexGPT Lite стоит 0,2 ₽ за 1 000 токенов, Pro — 0,8 ₽. Разница кажется четырёхкратной.
Но при 1 млн запросов это 300 000 ₽ против 1 200 000 ₽. Дальше включается инфраструктура: аренда g2.8 с 8 A100 — около 3 169 323 ₽ в месяц. Хранение — 13,08 ₽ за ГБ. Эти расходы доминируют.
Добавьте людей: ML Engineer — ≈185 000 ₽, в Москве ≈260 000 ₽. Senior — 280–350 000 ₽, Lead — 360–450 000 ₽. Без них система не работает.
Отдельно — риск ошибок. Неверные ответы ведут к повторным вызовам, исправлениям и потерям.
Даже скидки не меняют базу. DeepSeek давал 75% скидку и снизил стоимость повторных запросов до 10%. Это влияет на счёт, но не убирает постоянные расходы.
Пример расчёта «цены за результат»
Возьмём сценарий: 1 млн запросов в месяц.
Токены (API):
YandexGPT Lite ≈ 300 000 ₽
Инфраструктура (если self‑hosting или гибрид):
GPU (g2.8, 8×A100) ≈ 3 169 323 ₽
Хранение: зависит от объёма, например 13,08 ₽/ГБ
Персонал:
2 ML Engineer: ≈ 370 000–520 000 ₽
Операционные потери:
Повторные вызовы и ошибки — переменная статья
Формула: Цена результата = (токены + инфраструктура + персонал + ошибки) / число полезных ответов
Вывод из примера: доля токенов в общей стоимости может быть меньшей частью. Основную нагрузку дают инфраструктура и команда.
К чему это приводит
Сравнение по токенам перестаёт работать на масштабе. Разница в 5–15% по качеству моделей не всегда оправдывает рост расходов.
Бизнес смещает фокус: важна предсказуемая стоимость результата.
Отсюда и новая логика рынка: «рынку нужно будет не «лучшее мышление», а «достаточно хорошее мышление с предсказуемой экономикой».
Что теперь важно
Цена за токен — только сигнал. Решение принимают по TCO и цене результата.
Выбор LLM становится задачей финансовой инженерии, где считают не модель, а экономику её использования.

Типичные ошибки при выборе LLM
Когда прайс‑лист решает вместо вас
Вы выбираете YandexGPT Lite из‑за 0,2 ₽ за 1 000 токенов.
Нагрузка растёт. Появляются расходы на хранение, донастройку и поддержку.
Экономия исчезает. Бюджет уходит в инфраструктуру и людей.
Когда скидка ломает расчёты
Поставщик даёт скидку 75%.
Пилот проходит успешно. Затем растут повторные вызовы и мониторинг.
Фактические расходы оказываются выше ожидаемых.
Когда «лучшее» дороже результата
Выбирают модель с +10% качества.
Но интеграция и сопровождение съедают бюджет.
Проект тормозит из‑за стоимости и неопределённости.
Общий вывод: цена модели и цена результата — разные вещи.
Вариант | Цена токена (₽ / 1k входящих / 1k исходящих) | Стоимость при 1 млн запросов/мес (₽) | Ключевые инфраструктурные / кадровые показатели |
|---|---|---|---|
YandexGPT Lite | 0,2 / 0,2 | 300 000 | managed API |
YandexGPT Pro 5.1 | 0,8 / 0,8 | 1 200 000 | managed API |
DeepSeek V3.2 | 0,5 / 0,8 | 900 000 | DeepSeek: скидка 75% на V4‑Pro; повторные запросы снижены до 10% |
Self‑hosting (g2.8, 8×A100) | — | — | Аренда 8×A100 (g2.8): 3 169 323 ₽/мес; хранение в DataSphere: 13,08 ₽/ГБ/мес; ML Engineer: 185 000 ₽/мес (Москва ≈260 000 ₽); Senior 280–350 000 ₽; Lead 360–450 000 ₽ |
Как менять подход к выбору модели
Токен — это ориентир, не бюджет.
Практический сдвиг такой:
считать цену за результат, а не за 1 000 токенов
закладывать инфраструктуру и команду с первого дня
учитывать стоимость ошибок и повторных вызов
сравнивать варианты по предсказуемости расходов
Это меняет решения. Вместо «дешевле в прайсе» выбирают «стабильнее в эксплуатации».
Именно поэтому бизнес начинает считать не лучшую модель, а стоимость за результат.
Что делать на практике
Проблема не в моделях, а в метрике выбора. Цена токена даёт иллюзию контроля и ломается на масштабе.
Рабочий подход:
Собрать TCO: токены, инфраструктура, хранение, команда.
Посчитать цену за результат по формуле.
Проверить чувствительность: как меняется стоимость при росте нагрузки и ошибок.
Сравнить managed API и self‑hosting по предсказуемости, а не только по цене.
Почему это работает. Постоянные расходы доминируют над скидками и прайсом токенов. Их учёт делает бюджет управляемым.
На практике это реализуют платформы, которые объединяют хранение, RAG и работу модели внутри инфраструктуры компании. Такой подход снижает разброс затрат и упрощает расчёт TCO.
Вывод: экономика GenAI: TCO vs цена за токен и стоимость «мышления» — это про контроль результата, а не про минимальную цену в прайсе.
Частые вопросы по TCO и выбору LLM
В чем смысл: считать цену токена или TCO?
Считать TCO. Используйте формулу: (токены + инфраструктура + персонал + ошибки) / полезные ответы. Токен — только часть числителя.
Стоит ли переходить на самое дешёвое API по токенам?
Нет. Проверяйте, как меняются расходы на хранение, мониторинг и повторные вызовы при росте нагрузки. Часто именно они увеличивают счёт.
Когда self‑hosting выгоднее managed API?
При стабильной высокой нагрузке и понятной утилизации GPU. Если загрузка низкая или плавающая, расходы на 8×A100 (≈3 169 323 ₽/мес) и команда делают self‑hosting дороже.
Как учесть стоимость повторных вызов и ошибок?
Заложите коэффициент повторов. Например, если 15% запросов повторяются, умножьте токены на 1,15. Даже при снижении цены повторов до 10% это остаётся заметной статьёй.
С чего начать расчёт «цены за мышление»?
Определите, сколько запросов нужно для одного результата. Затем сложите токены, инфраструктуру, хранение и трудозатраты. Итог — цена одного результата, по которой и сравнивают решения.