Назад к статьям

Подключили Claude Opus 4.8 и Gemini Embedding 2

Команда GPTIK
ClaudeAnthropicGoogleGeminiновые моделиOpus 4.8embedding

Подключили Claude Opus 4.8 и Gemini Embedding 2

На этой неделе подключили три новые модели. Две от Anthropic, одна от Google. Коротко: если вам нужен сильный reasoning и работа с большим контекстом, смотрите Opus 4.8. Если хотите векторный поиск по тексту и картинкам в одном пространстве, берёте Gemini Embedding 2.

Дальше детали и наши соображения, кому что подходит.

Claude Opus 4.8

Это новый флагман Anthropic в семействе Opus. Поддерживает 1 миллион токенов контекста, 128k токенов на выход. На вход принимает текст, изображения и файлы, на выход — текст. Поддерживает function calling и reasoning.

Цена в GPTIK:

  • prompt: 750 ₽ за 1M токенов
  • completion: 3750 ₽ за 1M токенов
  • минимальный баланс для запроса: 3 ₽

Для сравнения, у предыдущего поколения Opus 4.6 Fast стоимость была 4500 / 22500 ₽ за 1M. То есть Opus 4.8 в обычной версии в шесть раз дешевле, чем Opus 4.6 Fast. Это не значит, что новая модель слабее старой — Anthropic пересмотрела прайс по всему семейству, и 4.6 Fast мы пометили как deprecated до 29 июня 2026 года.

Кому брать: всё, где раньше был выбор между Opus 4.6 и Sonnet 4.6 ради цены. Длинные документы, сложные цепочки рассуждений, агентные задачи с большим контекстом.

Claude Opus 4.8 Fast

Та же модель, что и Opus 4.8, но с увеличенной скоростью генерации. Anthropic честно пишет в описании: возможности идентичные, отличается только скорость вывода и цена.

  • prompt: 1500 ₽ за 1M токенов (в два раза дороже обычной)
  • completion: 7500 ₽ за 1M токенов
  • минимальный баланс: 5 ₽

Когда переплачивать вдвое за скорость имеет смысл? Чат-интерфейсы с живыми пользователями, где задержка ответа критична. Стриминг длинных ответов. Любая задача, где время до первого токена и длительность генерации напрямую влияют на UX.

Если же запрос идёт фоном — обработка очереди, генерация отчётов, рерайт по расписанию, — переплачивать смысла нет. Берите обычный Opus 4.8.

Gemini Embedding 2

Первая мультимодальная embedding-модель от Google. Главная фишка: текст и изображения попадают в одно векторное пространство. То есть можно искать картинки по текстовому запросу или находить тексты, семантически близкие к изображению.

Параметры:

  • контекст: 8192 токена
  • цена: 30 ₽ за 1M токенов
  • минимальный баланс: 0.5 ₽

Для RAG-сценариев с разнородным контентом это удобно. Раньше для текстов брали один embedding-провайдер, для картинок — отдельный, и сшивать поиск приходилось руками. Теперь можно положить всё в одну векторную БД и искать запросом без переключения индексов.

Что ещё поменялось в каталоге

В этом же обновлении мы:

  • снизили цену на deepseek-v4-flash до 14.745 / 29.49 ₽ за 1M и подняли max output до 131k токенов;
  • проставили цену на qwen3.5-35b-a3b в 21 / 150 ₽ и добавили max output 262k;
  • пометили openai/gpt-5.2-chat как deprecated до 10 августа 2026 (max output теперь 16k вместо 32k);
  • отключили deepseek-v3.2-speciale — OpenRouter убрал её из каталога.

Полный список доступных моделей и актуальные цены всегда в разделе «Модели» в кабинете.

Как попробовать

Если у вас уже есть аккаунт в GPTIK, новые модели появились автоматически. В API можно обращаться по полному ID (anthropic/claude-opus-4.8, anthropic/claude-opus-4.8-fast, google/gemini-embedding-2) или коротким алиасам (claude-opus-4.8, claude-opus-4-8-fast, gemini-embedding-2).

В чате выбираете модель в селекторе. Цены за конкретный запрос считаются по тарифу выбранной модели, остаток показывается в реальном времени.

Если что-то непонятно или сломалось — пишите в поддержку.