Ключевые термины AI/ML/DL: словарь новичка
Коротко по статье:
- Зачем словарь AI в 2026: вместо «магии» — выбор между ML, правилами, генеративным помощником и дисциплиной данных.
- Триггер из практики media buying: просадка CPA/ROAS → фиксируем цель, источник истины и эксперимент проверки эффекта.
- Границы терминов: AI как зонтик, ML как обучение на данных, DL как нейросети, generative AI как генерация контента.
- База данных: датасет, лейбл, признаки, фича инжиниринг; типичная боль — разрозненность трекера, CRM и аналитики.
- Почему модели ломаются: overfitting, утечка данных, drift; надежнее резать train/test по времени.
- Карта задач и оценка: классификация, регрессия, кластеризация, рекомендации; метрики accuracy, precision, recall, F1, ROC-AUC, logloss и проверка через A/B или holdout.
Определение
Словарь AI/ML/DL и генеративного AI для маркетологов и media buying, который помогает не путать уровни технологий и корректно ставить задачи. Практический цикл: фиксируем KPI, источник истины и способ проверки, затем описываем данные и тип задачи и выбираем подход (правила, ML, DL, LLM/RAG), контролируя риски overfitting, drift, утечек и галлюцинаций.
Содержание
- Зачем вам словарь AI в 2026, если вы закупаете трафик?
- AI, ML и DL: как не путать уровни
- Данные, признаки и датасеты: из чего собирается ML
- Что такое обучение и почему модели «ломаются» на новых кампаниях?
- Модели и задачи: классификация, регрессия, кластеризация, рекомендательные системы
- Генеративный AI: LLM, диффузия, мультимодальность
- Токены, эмбеддинги и контекст: как LLM «читает» ваш бриф
- Промптинг, fine-tuning и RAG: когда что выбирать
- Как мерить качество: метрики, валидация, A/B и офлайн-тесты
- Практический глоссарий и типовые риски: 30 терминов, которые чаще всего всплывают в задачах
Если вы в media buying или интернет-маркетинге, то AI-термины в 2026 лезут в каждый бриф: «дай модель предсказания CR», «подключим LLM к базе знаний», «сделаем RAG для саппорта», «зальём датасет и дообучим». Проблема новичка обычно не в том, что он «не знает математику», а в том, что он путает уровни понятий и из-за этого неверно оценивает сроки, бюджет и риски.
Зачем вам словарь AI в 2026, если вы закупаете трафик?
Чтобы перестать покупать «магическое решение» и начать покупать понятный результат: где нужен ML, где хватит правил, где нужен генеративный помощник, а где нужна дисциплина данных и аналитики.
Типичный рабочий триггер: вы приносите отчёт по открутке, видите просадку CPA/ROAS, и на созвоне звучит «давайте внедрим AI». В этот момент полезно быстро ответить себе на три вопроса: что именно хотим оптимизировать (сигнал), где возьмём данные (источник истины), как проверим эффект (эксперимент). Дальше словарь превращается из «теории» в язык постановки задач.
Совет эксперта от npprteam.shop, практик performance-маркетинга: "Если в задаче нет чёткой метрики успеха (например, снижение CPA при сохранении объёма конверсий) и способа проверки (A/B или хотя бы holdout-группа), то «внедрение AI» почти всегда превращается в дорогое творчество."
AI, ML и DL: как не путать уровни
AI — зонтик, ML — подход «учимся по данным», DL — подмножество ML на нейросетях; генеративный AI — класс моделей, которые создают контент (текст, изображения, аудио) и часто построены на DL.
| Термин | Граница смысла | Что делает | Маркетинговый пример | Частая ошибка |
|---|---|---|---|---|
| AI (искусственный интеллект) | Любые системы, имитирующие «умные» решения | Принимает решения по правилам или по данным | Антифрод-правила, авто-маршрутизация лидов | Думать, что AI = нейросеть |
| ML (машинное обучение) | Модели учатся на примерах | Находит закономерности в данных | Прогноз конверсии по признакам, скоринг лидов | Игнорировать качество данных |
| DL (глубокое обучение) | Нейросети с большим числом слоёв/параметров | Учит представления без ручной инженерии признаков | Модерация креативов, распознавание текста/объектов | Считать, что «нейросеть решит всё сама» |
| Generative AI (генеративный AI) | Модели, создающие новые объекты | Генерирует текст/картинки/аудио по запросу | Черновики копирайта, варианты креативов, идеи офферов | Путать генерацию с прогнозом метрик |
На практике это означает простую вещь: если вам нужно «предсказать» (CR, LTV, риск фрода), чаще всего речь про ML; если нужно «создать» (текст, визуал, сценарий), чаще про генеративный AI; если нужно «выполнять по регламенту» (проверки, маршрутизация), нередко достаточно правил и хорошей аналитики.
Данные, признаки и датасеты: из чего собирается ML
ML не «понимает бизнес», он видит таблицу: строки — объекты (показы/клики/пользователи), столбцы — признаки, плюс целевая переменная, которую мы хотим предсказать.
Датасет — набор примеров; лейбл (разметка) — «правильный ответ» для обучения; признаки — любые измеримые свойства (источник трафика, устройство, время, частота контактов, глубина сессии); фича инжиниринг — превращение сырого лога в признаки, пригодные для модели. В маркетинге чаще всего боль не в отсутствии данных, а в том, что они «разные»: часть в трекере, часть в CRM, часть в аналитике, а часть в таблицах.
Что считать «источником истины» в отчётах
Источник истины — это место, где вы договорились фиксировать факт события и его атрибуты так, чтобы потом можно было повторить расчёт и объяснить расхождения.
Если одна команда считает конверсию по трекеру, другая по CRM, третья по аналитике, модель будет учиться на шуме. В постановке задачи полезно заранее записать: что считаем конверсией (lead, sale, approved), какое окно атрибуции, что делаем с отменами и дублями, как учитываем задержку конверсий.
Что такое обучение и почему модели «ломаются» на новых кампаниях?
Обучение — это настройка параметров модели так, чтобы она хорошо предсказывала цель на похожих данных; «ломается» модель обычно из-за переобучения, утечек данных или сдвига распределения (drift), когда реальность стала другой.
Почему overfitting опасен именно для маркетинга
Переобучение — когда модель запоминает прошлое слишком буквально и теряет способность работать на новых условиях.
В media buying условия меняются постоянно: новые связки, сезонность, изменения аукциона, модерация, креативное выгорание, новые лимиты. Если модель «влюбилась» в частные паттерны прошлого месяца, она даст красивый отчёт на тесте и слабый результат в проде.
Как распознать утечку данных до запуска в прод?
Утечка данных (data leakage) — когда в признаки случайно попадает информация из будущего или из самой цели, и модель «читает ответ».
Маркер утечки — подозрительно высокий результат на офлайн-валидации и резкая деградация в бою. Типовые источники: признаки, посчитанные после конверсии (например, «число покупок» при прогнозе покупки), смешивание событий по времени, неправильный разрез train/test без учёта хронологии.
Совет эксперта от npprteam.shop, маркетинговый аналитик: "Если прогнозируете конверсию или LTV, режьте train/test по времени, а не случайно. Для трафика это ближе к реальности: модель видит прошлое и пытается предсказать будущее, а не угадывает внутри одного мешка."
Модели и задачи: классификация, регрессия, кластеризация, рекомендательные системы
Почти все прикладные ML-задачи в маркетинге сводятся к четырём типам: выбрать класс, предсказать число, сгруппировать похожих, порекомендовать следующий шаг.
Классификация отвечает «да/нет» или «какой из вариантов»: будет ли лид качественным, риск фрода высокий или нет, какой креатив вероятнее пройдёт модерацию. Регрессия предсказывает число: ожидаемый доход, вероятность конверсии как число, прогноз LTV. Кластеризация группирует аудитории по поведению без разметки: сегменты по паттернам потребления, по отклику на офферы. Рекомендательные системы выбирают «что показать дальше»: товар, контент, оффер, последовательность касаний.
Если вы ставите задачу команде, формулируйте её не как «сделайте нейросеть», а как «нам нужна классификация качества лида с приоритетом на минимизацию ложноположительных» или «нам нужен прогноз вероятности конверсии для ранжирования трафика».
Генеративный AI: LLM, диффузия, мультимодальность
Генеративные модели создают новый контент: LLM — текст (и не только), диффузионные модели — изображения и видео через последовательное «очищение» шума, мультимодальные модели работают с несколькими типами данных сразу.
LLM (большие языковые модели) удобны там, где есть текст: брифы, скрипты, саппорт, классификация обращений, извлечение сущностей из документов. Диффузия полезна для визуала: вариации баннеров, стилизация, генерация концептов. Важная оговорка для маркетолога: генерация контента — не гарантия роста метрик; это ускоритель производства вариантов, а валидирует эффект всё равно эксперимент.
Диффузионный подход в современной форме описан как вероятностная модель, которая учится обращать процесс «зашумления» и шаг за шагом восстанавливать изображение; поэтому генерация выглядит как серия итераций от шума к картинке.
Токены, эмбеддинги и контекст: как LLM «читает» ваш бриф
LLM видит текст как последовательность токенов, превращает их во векторы (эмбеддинги) и генерирует продолжение, опираясь на контекст и вероятности.
Под капотом: почему LLM уверенно говорит чушь
Первый факт: базовый режим LLM — предсказывать следующее слово/токен, а не проверять истинность, поэтому «уверенный тон» не равен «верной информации».
Второй факт: температура и сэмплинг управляют разнообразием генерации; чем больше разнообразие, тем выше риск «галлюцинаций» в деталях, особенно в цифрах, именах и ссылках.
Третий факт: длинный контекст помогает удерживать больше входных данных, но не превращает модель в «базу знаний»; если нужного факта нет в контексте, модель будет достраивать ответ из статистических ассоциаций.
Четвёртый факт: «заземление» (grounding) достигается не магией, а инженерией: подключением поиска по вашим документам, строгими форматами ответов, проверками и пост-обработкой.
Пятый факт: лучше всего LLM показывает себя как инструмент для ускорения рутины (черновики, перефразирование, структурирование), а не как автономный источник истины по регламентам и цифрам.
Промптинг, fine-tuning и RAG: когда что выбирать
Промптинг меняет поведение за счёт инструкции, fine-tuning меняет модель обучением на примерах, RAG добавляет модели доступ к вашим данным через поиск и подстановку контекста.
| Подход | Когда подходит | Что нужно | Типовой риск |
|---|---|---|---|
| Промптинг (инструкции) | Нужен быстрый результат и гибкость | Чёткое ТЗ, примеры хорошего/плохого ответа | Нестабильность при изменении формулировок |
| Fine-tuning (дообучение) | Нужен устойчивый стиль/формат, много однотипных кейсов | Набор пар «вход-выход», контроль качества данных | Закрепление ошибок в данных, сложнее откатывать |
| RAG (поиск + генерация) | Нужно отвечать на основе ваших документов и свежих данных | Корпус документов, разбиение на фрагменты, поиск, пере-ранжирование | «Мусор на входе» из базы знаний даёт «мусор на выходе» |
| Инструментальный режим (tools/agent) | Нужно не только говорить, но и выполнять шаги в системах | Доступы, логирование, ограничения, проверки действий | Ошибки автоматизации и утечки данных без контроля |
Практический выбор для маркетинга часто простой: если у вас проблема «знания» (регламенты, продукт, FAQ, спецификации офферов), RAG обычно даёт больше пользы, чем дообучение; если проблема «формата» (одинаковый стиль карточек, строгая структура отчётов), fine-tuning оправдан; если проблема «сделай прямо сейчас черновик», достаточно промптинга.
Как мерить качество: метрики, валидация, A/B и офлайн-тесты
Качество модели — это не «нравится/не нравится», а понятная метрика, измеренная на данных, которые похожи на будущую реальность, плюс проверка в эксперименте.
| Метрика | Что измеряет простыми словами | Где полезна в маркетинге | Ловушка интерпретации |
|---|---|---|---|
| Accuracy | Доля правильных ответов | Грубые классификации при сбалансированных классах | Бесполезна при редких событиях (фрод, покупка) |
| Precision | Насколько «чистые» позитивные предсказания | Когда дорого ошибиться, признав лид качественным | Можно завысить, предсказывая «позитив» очень редко |
| Recall | Сколько реальных позитивов нашли | Когда важно не пропустить хорошие лиды | Рост recall часто снижает precision |
| F1 | Баланс precision и recall | Компромиссные задачи качества лидов/фрода | Скрывает, что именно просело: precision или recall |
| ROC-AUC | Насколько хорошо модель ранжирует | Скоринг, приоритизация лидов, ранжирование трафика | Высокий AUC не гарантирует бизнес-эффект на пороге |
| Logloss | Штраф за уверенные ошибки вероятностей | Калибровка вероятностей конверсии | Непонятна бизнесу без перевода в деньги |
Для медийки и перформанса добавляется второй слой: даже если офлайн-метрика хорошая, нужно проверить влияние на KPI через A/B, потому что модель меняет поведение системы (распределение бюджета, приоритет лидов, частоту касаний). Если нет возможности A/B, используйте хотя бы отложенную группу (holdout) и сравнение по времени с поправкой на сезонность.
Практический глоссарий и типовые риски: 30 терминов, которые чаще всего всплывают в задачах
Ниже — компактный словарь с «переводом на маркетинговый». Если вы читаете ТЗ от продакта или дата-саентиста, эти термины встречаются чаще остальных.
| Термин | Что это | Как проявляется в работе маркетолога |
|---|---|---|
| Dataset (датасет) | Набор примеров для обучения/теста | Выгрузка событий, лидов, продаж, статусов, затрат |
| Label (лейбл) | Правильный ответ для обучения | Качественный/некачественный лид, покупка/нет |
| Feature (признак) | Столбец данных, «сигнал» | Источник, устройство, частота, глубина, цена клика |
| Train/Validation/Test | Разделение данных для обучения и проверки | Проверка, что модель не «подглядела» ответы |
| Overfitting (переобучение) | Модель запомнила прошлое, а не закономерность | Отчёт красивый, в проде просадка качества |
| Drift (дрейф) | Данные/аукцион/аудитория изменились | Связка выгорела, сезонность сместилась, правила платформы обновились |
| Data leakage (утечка данных) | В признаки попало «будущее» или сама цель | Модель «угадывает» на тесте и ошибается в бою |
| Hyperparameter (гиперпараметр) | Настройка обучения, задаётся вручную | Команда просит время на подбор, иначе качество нестабильно |
| Epoch (эпоха) | Проход по датасету при обучении | Не «больше — лучше»: можно переобучиться |
| Batch (батч) | Пачка примеров за один шаг обучения | Влияет на скорость обучения и стабильность |
| Embedding (эмбеддинг) | Векторное представление смысла | Поиск похожих запросов, товаров, креативов |
| Vector DB (векторная база) | Хранилище эмбеддингов для поиска | Быстрый поиск по базе знаний для RAG |
| RAG | Поиск документов + генерация ответа | Ответы по регламентам, продукту, условиям офферов |
| Prompt (промпт) | Инструкция модели | Шаблон брифа для генерации текста/креатива |
| Temperature | Контроль разнообразия генерации | Больше вариантов идей, выше риск неточностей |
| Fine-tuning | Дообучение на ваших примерах | Фиксированный стиль описаний, строгие форматы отчётов |
| LoRA/PEFT | Экономное дообучение «адаптерами» | Дешевле менять поведение модели под узкую задачу |
| Quantization (квантизация) | Сжатие весов модели для скорости/дешевизны | Дешевле инференс, иногда падает качество |
| Distillation (дистилляция) | «Учитель» обучает более лёгкую модель | Ускорение и удешевление при массовых запросах |
| Inference (инференс) | Работа модели на новых данных | Стоимость на каждый запрос и задержка ответа |
| Hallucination (галлюцинация) | Правдоподобная выдумка | Опасно в цифрах, правилах, юридических формулировках |
| Grounding (заземление) | Ответ только из предоставленных источников | Полезно для саппорта и внутренних регламентов |
| Benchmark (бенчмарк) | Стандартный тест сравнения | Не равен вашему KPI, нужен перевод в бизнес-эффект |
| Monitoring (мониторинг) | Наблюдение за качеством в проде | Понять, когда модель деградирует и её пора обновлять |
| MLOps | Процессы разработки и эксплуатации моделей | Версионирование данных, логирование, контроль релизов |
| Attribution (атрибуция) | Как распределяем заслугу между касаниями | Без единой логики модель учится на противоречиях |
| Uplift (инкрементальность) | Эффект «сверху», а не просто корреляция | Понимать, что реально меняет поведение, а что совпало |
| Look-alike (похожие аудитории) | Поиск похожих на конвертящихся пользователей | База для масштабирования при контроле качества |
| Fraud detection (антифрод) | Поиск подозрительных паттернов | Снижение потерь от ботов и мотивированного трафика |
| Churn (отток) | Риск ухода пользователя | Сегментация и удержание, особенно в подписках |
| LLM | Большая языковая модель | Помощник по текстам и структурированию знаний |
| Diffusion model (диффузия) | Генерация изображений через «очистку» шума | Варианты визуалов и концептов для креативов |
Теперь про риски, которые в 2026 чаще всего бьют именно по маркетологам. Первый — утечки данных: когда в промпты или в внешние AI-инструменты утекают клиентские данные, бюджеты, исходники, доступы. Второй — «галлюцинации» в цифрах: модель может уверенно назвать несуществующий факт или «придумать» правило площадки. Третий — отсутствие контроля версий: вы меняете формулировку запроса или источник данных, и качество «плавает», а найти причину сложно.
Рабочая защита без усложнений: минимизировать чувствительные данные в запросах, разделять «креативную генерацию» и «точные факты», фиксировать шаблоны промптов как артефакт (как креатив или трекинг-план), логировать вход/выход, а для ответов по регламентам использовать подход RAG, где модель опирается на ваши тексты и ссылки на источники.

































