Что такое токены?

Токены — это базовые единицы текста, которые языковые модели используют для обработки информации. Понимание токенов важно для эффективного использования AI-сервисов и контроля расходов.

Как работают токены?

Базовая концепция

AI модели не работают напрямую со словами или символами. Вместо этого они разбивают текст на токены — небольшие части текста, которые могут быть словами, частями слов или даже знаками препинания.

Примеры токенизации

  • • Слово “ChatGPT” = 2 токена: “Chat” + “GPT”
  • • Слово “искусственный” = 2-3 токена в зависимости от модели
  • • Простое слово “дом” = 1 токен
  • • Пробел и знаки препинания также считаются токенами

Для русского языка

В среднем, 1 токен ≈ 4 символа для русского текста, или примерно 750 слов на 1000 токенов. Это соотношение может варьироваться в зависимости от сложности текста и используемой модели.

Таблица расхода токенов по моделям
Количество слов использования различных AI моделей в GPTik
МодельСлова/1K токенов
GPT-3.5 Turbo≈750 слов / 1K токенов
GPT-4 Turbo≈750 слов / 1K токенов
Claude 3 Opus≈750 слов / 1K токенов
Gemini Pro≈750 слов / 1K токенов

* Количество слов указано приблизительно. Актуальные тарифы смотрите в разделе Цены на главной странице.

Примеры подсчёта токенов

Короткий запрос: “Напиши статью о Python”

≈ 6-7 токенов

Средний запрос: “Напиши подробную статью о преимуществах языка программирования Python для начинающих разработчиков”

≈ 20-25 токенов

Длинный текст: статья на 1000 слов

≈ 1300-1500 токенов (с учётом форматирования)

Советы по экономии токенов

✓ Формулируйте запросы чётко и конкретно

✓ Избегайте избыточных подробностей в промпте

✓ Используйте GPT-4o для простых задач, GPT-5 — для сложных

✓ Разбивайте большие тексты на части для обработки

✓ Используйте системные промпты для постоянных настроек вместо повторения в каждом запросе