Что такое токены?
Токены — это базовые единицы текста, которые языковые модели используют для обработки информации. Понимание токенов важно для эффективного использования AI-сервисов и контроля расходов.
Базовая концепция
AI модели не работают напрямую со словами или символами. Вместо этого они разбивают текст на токены — небольшие части текста, которые могут быть словами, частями слов или даже знаками препинания.
Примеры токенизации
- • Слово “ChatGPT” = 2 токена: “Chat” + “GPT”
- • Слово “искусственный” = 2-3 токена в зависимости от модели
- • Простое слово “дом” = 1 токен
- • Пробел и знаки препинания также считаются токенами
Для русского языка
В среднем, 1 токен ≈ 4 символа для русского текста, или примерно 750 слов на 1000 токенов. Это соотношение может варьироваться в зависимости от сложности текста и используемой модели.
| Модель | Слова/1K токенов |
|---|---|
| GPT-3.5 Turbo | ≈750 слов / 1K токенов |
| GPT-4 Turbo | ≈750 слов / 1K токенов |
| Claude 3 Opus | ≈750 слов / 1K токенов |
| Gemini Pro | ≈750 слов / 1K токенов |
* Количество слов указано приблизительно. Актуальные тарифы смотрите в разделе Цены на главной странице.
Короткий запрос: “Напиши статью о Python”
≈ 6-7 токенов
Средний запрос: “Напиши подробную статью о преимуществах языка программирования Python для начинающих разработчиков”
≈ 20-25 токенов
Длинный текст: статья на 1000 слов
≈ 1300-1500 токенов (с учётом форматирования)
✓ Формулируйте запросы чётко и конкретно
✓ Избегайте избыточных подробностей в промпте
✓ Используйте GPT-4o для простых задач, GPT-5 — для сложных
✓ Разбивайте большие тексты на части для обработки
✓ Используйте системные промпты для постоянных настроек вместо повторения в каждом запросе