Ключевые термины AI/ML/DL: словарь новичка

0.00

★★★★★

(0)

Время прочтения: ~ 8 мин.

Нейросети

19.01.26

NPPR TEAM

Коротко по статье:

Зачем словарь AI в 2026: вместо «магии» — выбор между ML, правилами, генеративным помощником и дисциплиной данных.
Триггер из практики media buying: просадка CPA/ROAS → фиксируем цель, источник истины и эксперимент проверки эффекта.
Границы терминов: AI как зонтик, ML как обучение на данных, DL как нейросети, generative AI как генерация контента.
База данных: датасет, лейбл, признаки, фича инжиниринг; типичная боль — разрозненность трекера, CRM и аналитики.
Почему модели ломаются: overfitting, утечка данных, drift; надежнее резать train/test по времени.
Карта задач и оценка: классификация, регрессия, кластеризация, рекомендации; метрики accuracy, precision, recall, F1, ROC-AUC, logloss и проверка через A/B или holdout.

Определение

Словарь AI/ML/DL и генеративного AI для маркетологов и media buying, который помогает не путать уровни технологий и корректно ставить задачи. Практический цикл: фиксируем KPI, источник истины и способ проверки, затем описываем данные и тип задачи и выбираем подход (правила, ML, DL, LLM/RAG), контролируя риски overfitting, drift, утечек и галлюцинаций.

Содержание
Зачем вам словарь AI в 2026, если вы закупаете трафик?
AI, ML и DL: как не путать уровни
Данные, признаки и датасеты: из чего собирается ML
Что считать «источником истины» в отчётах
Что такое обучение и почему модели «ломаются» на новых кампаниях?
Почему overfitting опасен именно для маркетинга
Как распознать утечку данных до запуска в прод?
Модели и задачи: классификация, регрессия, кластеризация, рекомендательные системы
Генеративный AI: LLM, диффузия, мультимодальность
Токены, эмбеддинги и контекст: как LLM «читает» ваш бриф
Под капотом: почему LLM уверенно говорит чушь
Промптинг, fine-tuning и RAG: когда что выбирать
Как мерить качество: метрики, валидация, A/B и офлайн-тесты
Практический глоссарий и типовые риски: 30 терминов, которые чаще всего всплывают в задачах

Если вы в media buying или интернет-маркетинге, то AI-термины в 2026 лезут в каждый бриф: «дай модель предсказания CR», «подключим LLM к базе знаний», «сделаем RAG для саппорта», «зальём датасет и дообучим». Проблема новичка обычно не в том, что он «не знает математику», а в том, что он путает уровни понятий и из-за этого неверно оценивает сроки, бюджет и риски.

Зачем вам словарь AI в 2026, если вы закупаете трафик?

Чтобы перестать покупать «магическое решение» и начать покупать понятный результат: где нужен ML, где хватит правил, где нужен генеративный помощник, а где нужна дисциплина данных и аналитики.

Типичный рабочий триггер: вы приносите отчёт по открутке, видите просадку CPA/ROAS, и на созвоне звучит «давайте внедрим AI». В этот момент полезно быстро ответить себе на три вопроса: что именно хотим оптимизировать (сигнал), где возьмём данные (источник истины), как проверим эффект (эксперимент). Дальше словарь превращается из «теории» в язык постановки задач.

Совет эксперта от npprteam.shop, практик performance-маркетинга: "Если в задаче нет чёткой метрики успеха (например, снижение CPA при сохранении объёма конверсий) и способа проверки (A/B или хотя бы holdout-группа), то «внедрение AI» почти всегда превращается в дорогое творчество."

AI, ML и DL: как не путать уровни

AI — зонтик, ML — подход «учимся по данным», DL — подмножество ML на нейросетях; генеративный AI — класс моделей, которые создают контент (текст, изображения, аудио) и часто построены на DL.

Термин	Граница смысла	Что делает	Маркетинговый пример	Частая ошибка
AI (искусственный интеллект)	Любые системы, имитирующие «умные» решения	Принимает решения по правилам или по данным	Антифрод-правила, авто-маршрутизация лидов	Думать, что AI = нейросеть
ML (машинное обучение)	Модели учатся на примерах	Находит закономерности в данных	Прогноз конверсии по признакам, скоринг лидов	Игнорировать качество данных
DL (глубокое обучение)	Нейросети с большим числом слоёв/параметров	Учит представления без ручной инженерии признаков	Модерация креативов, распознавание текста/объектов	Считать, что «нейросеть решит всё сама»
Generative AI (генеративный AI)	Модели, создающие новые объекты	Генерирует текст/картинки/аудио по запросу	Черновики копирайта, варианты креативов, идеи офферов	Путать генерацию с прогнозом метрик

На практике это означает простую вещь: если вам нужно «предсказать» (CR, LTV, риск фрода), чаще всего речь про ML; если нужно «создать» (текст, визуал, сценарий), чаще про генеративный AI; если нужно «выполнять по регламенту» (проверки, маршрутизация), нередко достаточно правил и хорошей аналитики.

Данные, признаки и датасеты: из чего собирается ML

ML не «понимает бизнес», он видит таблицу: строки — объекты (показы/клики/пользователи), столбцы — признаки, плюс целевая переменная, которую мы хотим предсказать.

Датасет — набор примеров; лейбл (разметка) — «правильный ответ» для обучения; признаки — любые измеримые свойства (источник трафика, устройство, время, частота контактов, глубина сессии); фича инжиниринг — превращение сырого лога в признаки, пригодные для модели. В маркетинге чаще всего боль не в отсутствии данных, а в том, что они «разные»: часть в трекере, часть в CRM, часть в аналитике, а часть в таблицах.

Что считать «источником истины» в отчётах

Источник истины — это место, где вы договорились фиксировать факт события и его атрибуты так, чтобы потом можно было повторить расчёт и объяснить расхождения.

Если одна команда считает конверсию по трекеру, другая по CRM, третья по аналитике, модель будет учиться на шуме. В постановке задачи полезно заранее записать: что считаем конверсией (lead, sale, approved), какое окно атрибуции, что делаем с отменами и дублями, как учитываем задержку конверсий.

Что такое обучение и почему модели «ломаются» на новых кампаниях?

Обучение — это настройка параметров модели так, чтобы она хорошо предсказывала цель на похожих данных; «ломается» модель обычно из-за переобучения, утечек данных или сдвига распределения (drift), когда реальность стала другой.

Почему overfitting опасен именно для маркетинга

Переобучение — когда модель запоминает прошлое слишком буквально и теряет способность работать на новых условиях.

В media buying условия меняются постоянно: новые связки, сезонность, изменения аукциона, модерация, креативное выгорание, новые лимиты. Если модель «влюбилась» в частные паттерны прошлого месяца, она даст красивый отчёт на тесте и слабый результат в проде.

Как распознать утечку данных до запуска в прод?

Утечка данных (data leakage) — когда в признаки случайно попадает информация из будущего или из самой цели, и модель «читает ответ».

Маркер утечки — подозрительно высокий результат на офлайн-валидации и резкая деградация в бою. Типовые источники: признаки, посчитанные после конверсии (например, «число покупок» при прогнозе покупки), смешивание событий по времени, неправильный разрез train/test без учёта хронологии.

Совет эксперта от npprteam.shop, маркетинговый аналитик: "Если прогнозируете конверсию или LTV, режьте train/test по времени, а не случайно. Для трафика это ближе к реальности: модель видит прошлое и пытается предсказать будущее, а не угадывает внутри одного мешка."

Модели и задачи: классификация, регрессия, кластеризация, рекомендательные системы

Почти все прикладные ML-задачи в маркетинге сводятся к четырём типам: выбрать класс, предсказать число, сгруппировать похожих, порекомендовать следующий шаг.

Классификация отвечает «да/нет» или «какой из вариантов»: будет ли лид качественным, риск фрода высокий или нет, какой креатив вероятнее пройдёт модерацию. Регрессия предсказывает число: ожидаемый доход, вероятность конверсии как число, прогноз LTV. Кластеризация группирует аудитории по поведению без разметки: сегменты по паттернам потребления, по отклику на офферы. Рекомендательные системы выбирают «что показать дальше»: товар, контент, оффер, последовательность касаний.

Если вы ставите задачу команде, формулируйте её не как «сделайте нейросеть», а как «нам нужна классификация качества лида с приоритетом на минимизацию ложноположительных» или «нам нужен прогноз вероятности конверсии для ранжирования трафика».

Генеративный AI: LLM, диффузия, мультимодальность

Генеративные модели создают новый контент: LLM — текст (и не только), диффузионные модели — изображения и видео через последовательное «очищение» шума, мультимодальные модели работают с несколькими типами данных сразу.

LLM (большие языковые модели) удобны там, где есть текст: брифы, скрипты, саппорт, классификация обращений, извлечение сущностей из документов. Диффузия полезна для визуала: вариации баннеров, стилизация, генерация концептов. Важная оговорка для маркетолога: генерация контента — не гарантия роста метрик; это ускоритель производства вариантов, а валидирует эффект всё равно эксперимент.

Диффузионный подход в современной форме описан как вероятностная модель, которая учится обращать процесс «зашумления» и шаг за шагом восстанавливать изображение; поэтому генерация выглядит как серия итераций от шума к картинке.

Токены, эмбеддинги и контекст: как LLM «читает» ваш бриф

LLM видит текст как последовательность токенов, превращает их во векторы (эмбеддинги) и генерирует продолжение, опираясь на контекст и вероятности.

Под капотом: почему LLM уверенно говорит чушь

Первый факт: базовый режим LLM — предсказывать следующее слово/токен, а не проверять истинность, поэтому «уверенный тон» не равен «верной информации».

Второй факт: температура и сэмплинг управляют разнообразием генерации; чем больше разнообразие, тем выше риск «галлюцинаций» в деталях, особенно в цифрах, именах и ссылках.

Третий факт: длинный контекст помогает удерживать больше входных данных, но не превращает модель в «базу знаний»; если нужного факта нет в контексте, модель будет достраивать ответ из статистических ассоциаций.

Четвёртый факт: «заземление» (grounding) достигается не магией, а инженерией: подключением поиска по вашим документам, строгими форматами ответов, проверками и пост-обработкой.

Пятый факт: лучше всего LLM показывает себя как инструмент для ускорения рутины (черновики, перефразирование, структурирование), а не как автономный источник истины по регламентам и цифрам.

Промптинг, fine-tuning и RAG: когда что выбирать

Промптинг меняет поведение за счёт инструкции, fine-tuning меняет модель обучением на примерах, RAG добавляет модели доступ к вашим данным через поиск и подстановку контекста.

Подход	Когда подходит	Что нужно	Типовой риск
Промптинг (инструкции)	Нужен быстрый результат и гибкость	Чёткое ТЗ, примеры хорошего/плохого ответа	Нестабильность при изменении формулировок
Fine-tuning (дообучение)	Нужен устойчивый стиль/формат, много однотипных кейсов	Набор пар «вход-выход», контроль качества данных	Закрепление ошибок в данных, сложнее откатывать
RAG (поиск + генерация)	Нужно отвечать на основе ваших документов и свежих данных	Корпус документов, разбиение на фрагменты, поиск, пере-ранжирование	«Мусор на входе» из базы знаний даёт «мусор на выходе»
Инструментальный режим (tools/agent)	Нужно не только говорить, но и выполнять шаги в системах	Доступы, логирование, ограничения, проверки действий	Ошибки автоматизации и утечки данных без контроля

Практический выбор для маркетинга часто простой: если у вас проблема «знания» (регламенты, продукт, FAQ, спецификации офферов), RAG обычно даёт больше пользы, чем дообучение; если проблема «формата» (одинаковый стиль карточек, строгая структура отчётов), fine-tuning оправдан; если проблема «сделай прямо сейчас черновик», достаточно промптинга.

Как мерить качество: метрики, валидация, A/B и офлайн-тесты

Качество модели — это не «нравится/не нравится», а понятная метрика, измеренная на данных, которые похожи на будущую реальность, плюс проверка в эксперименте.

Метрика	Что измеряет простыми словами	Где полезна в маркетинге	Ловушка интерпретации
Accuracy	Доля правильных ответов	Грубые классификации при сбалансированных классах	Бесполезна при редких событиях (фрод, покупка)
Precision	Насколько «чистые» позитивные предсказания	Когда дорого ошибиться, признав лид качественным	Можно завысить, предсказывая «позитив» очень редко
Recall	Сколько реальных позитивов нашли	Когда важно не пропустить хорошие лиды	Рост recall часто снижает precision
F1	Баланс precision и recall	Компромиссные задачи качества лидов/фрода	Скрывает, что именно просело: precision или recall
ROC-AUC	Насколько хорошо модель ранжирует	Скоринг, приоритизация лидов, ранжирование трафика	Высокий AUC не гарантирует бизнес-эффект на пороге
Logloss	Штраф за уверенные ошибки вероятностей	Калибровка вероятностей конверсии	Непонятна бизнесу без перевода в деньги

Для медийки и перформанса добавляется второй слой: даже если офлайн-метрика хорошая, нужно проверить влияние на KPI через A/B, потому что модель меняет поведение системы (распределение бюджета, приоритет лидов, частоту касаний). Если нет возможности A/B, используйте хотя бы отложенную группу (holdout) и сравнение по времени с поправкой на сезонность.

Практический глоссарий и типовые риски: 30 терминов, которые чаще всего всплывают в задачах

Ниже — компактный словарь с «переводом на маркетинговый». Если вы читаете ТЗ от продакта или дата-саентиста, эти термины встречаются чаще остальных.

Термин	Что это	Как проявляется в работе маркетолога
Dataset (датасет)	Набор примеров для обучения/теста	Выгрузка событий, лидов, продаж, статусов, затрат
Label (лейбл)	Правильный ответ для обучения	Качественный/некачественный лид, покупка/нет
Feature (признак)	Столбец данных, «сигнал»	Источник, устройство, частота, глубина, цена клика
Train/Validation/Test	Разделение данных для обучения и проверки	Проверка, что модель не «подглядела» ответы
Overfitting (переобучение)	Модель запомнила прошлое, а не закономерность	Отчёт красивый, в проде просадка качества
Drift (дрейф)	Данные/аукцион/аудитория изменились	Связка выгорела, сезонность сместилась, правила платформы обновились
Data leakage (утечка данных)	В признаки попало «будущее» или сама цель	Модель «угадывает» на тесте и ошибается в бою
Hyperparameter (гиперпараметр)	Настройка обучения, задаётся вручную	Команда просит время на подбор, иначе качество нестабильно
Epoch (эпоха)	Проход по датасету при обучении	Не «больше — лучше»: можно переобучиться
Batch (батч)	Пачка примеров за один шаг обучения	Влияет на скорость обучения и стабильность
Embedding (эмбеддинг)	Векторное представление смысла	Поиск похожих запросов, товаров, креативов
Vector DB (векторная база)	Хранилище эмбеддингов для поиска	Быстрый поиск по базе знаний для RAG
RAG	Поиск документов + генерация ответа	Ответы по регламентам, продукту, условиям офферов
Prompt (промпт)	Инструкция модели	Шаблон брифа для генерации текста/креатива
Temperature	Контроль разнообразия генерации	Больше вариантов идей, выше риск неточностей
Fine-tuning	Дообучение на ваших примерах	Фиксированный стиль описаний, строгие форматы отчётов
LoRA/PEFT	Экономное дообучение «адаптерами»	Дешевле менять поведение модели под узкую задачу
Quantization (квантизация)	Сжатие весов модели для скорости/дешевизны	Дешевле инференс, иногда падает качество
Distillation (дистилляция)	«Учитель» обучает более лёгкую модель	Ускорение и удешевление при массовых запросах
Inference (инференс)	Работа модели на новых данных	Стоимость на каждый запрос и задержка ответа
Hallucination (галлюцинация)	Правдоподобная выдумка	Опасно в цифрах, правилах, юридических формулировках
Grounding (заземление)	Ответ только из предоставленных источников	Полезно для саппорта и внутренних регламентов
Benchmark (бенчмарк)	Стандартный тест сравнения	Не равен вашему KPI, нужен перевод в бизнес-эффект
Monitoring (мониторинг)	Наблюдение за качеством в проде	Понять, когда модель деградирует и её пора обновлять
MLOps	Процессы разработки и эксплуатации моделей	Версионирование данных, логирование, контроль релизов
Attribution (атрибуция)	Как распределяем заслугу между касаниями	Без единой логики модель учится на противоречиях
Uplift (инкрементальность)	Эффект «сверху», а не просто корреляция	Понимать, что реально меняет поведение, а что совпало
Look-alike (похожие аудитории)	Поиск похожих на конвертящихся пользователей	База для масштабирования при контроле качества
Fraud detection (антифрод)	Поиск подозрительных паттернов	Снижение потерь от ботов и мотивированного трафика
Churn (отток)	Риск ухода пользователя	Сегментация и удержание, особенно в подписках
LLM	Большая языковая модель	Помощник по текстам и структурированию знаний
Diffusion model (диффузия)	Генерация изображений через «очистку» шума	Варианты визуалов и концептов для креативов

Теперь про риски, которые в 2026 чаще всего бьют именно по маркетологам. Первый — утечки данных: когда в промпты или в внешние AI-инструменты утекают клиентские данные, бюджеты, исходники, доступы. Второй — «галлюцинации» в цифрах: модель может уверенно назвать несуществующий факт или «придумать» правило площадки. Третий — отсутствие контроля версий: вы меняете формулировку запроса или источник данных, и качество «плавает», а найти причину сложно.

Рабочая защита без усложнений: минимизировать чувствительные данные в запросах, разделять «креативную генерацию» и «точные факты», фиксировать шаблоны промптов как артефакт (как креатив или трекинг-план), логировать вход/выход, а для ответов по регламентам использовать подход RAG, где модель опирается на ваши тексты и ссылки на источники.

Другие статьи

11.11.25

Как привязать страницу и рекламный аккаунт к Business Manager?

Что значит «привязать» страницу и рекламный аккаунт к Business Manager?Это процесс, при котором вы закрепляете права управления бизнес-активами внутри Business...

11.12.25

Архитектура сервера: каналы, роли, права, боты в Discord

Зачем бизнесу продуманная архитектура сервера DiscordХорошая архитектура сервера экономит модераторам часы рутины, снижает токсичность и повышает конверсию участника из «только...

21.12.25

Ненавязчивая реклама на стриме Twitch: как интегрировать партнёрки так, чтобы чат не взорвался?

Почему зрители Twitch так болезнно реагируют на рекламу?Зрители Twitch приходят за ощущением присутствия и живого общения, поэтому любая реклама, которая...

Об авторе

NPPR TEAM

Арбитражная команда, специализирующаяся на продвижении различных офферов в зарубежных регионах, таких как Европа, США, Азия и Ближний Восток . Они активно используют различные источники трафика, включая Facebook, Google, тизерные сети и SEO. Команда также разрабатывает и предоставляет бесплатные инструменты для арбитражников, такие как генераторы white-page, квизов и уникализаторы. NPPR TEAM делится своим опытом через кейсы и интервью, предоставляя информацию о своих успехах и подходах в арбитраже трафика.

Часто задаваемые вопросы

В чем разница между AI, ML и DL простыми словами?

AI — общий термин для систем, которые решают задачи «как будто разумно». ML — часть AI, где модель учится на данных и делает прогнозы. DL — часть ML на нейросетях, которая лучше работает с неструктурированными данными (текст, изображения, аудио), но требует больше данных, вычислений и контроля качества.

Что такое датасет, лейблы и признаки, и почему без них ML не взлетает?

Датасет — таблица примеров, на которых учится модель. Лейбл — правильный ответ (конверсия/нет, фрод/нет). Признаки — измеримые свойства (источник, устройство, время, частота, стоимость клика). Если лейблы шумные или признаки собраны по разным правилам в трекере/CRM/аналитике, модель учится на хаосе и даёт нестабильные прогнозы.

Что такое LLM и чем она отличается от «обычного ML»?

LLM — большая языковая модель, которая работает с текстом через токены и вероятностно генерирует продолжение, опираясь на контекст. «Обычный ML» чаще решает табличные задачи: классификацию (да/нет), регрессию (число), скоринг. LLM сильна в тексте: черновики, структурирование, поиск смысла, но факты и цифры требуют заземления и проверок.

Что такое токены и почему длина контекста важна для качества ответа?

Токены — кусочки текста, в которые модель «нарезает» запрос и контекст. Длина контекста — сколько токенов модель может держать «в памяти» за один запрос. Чем больше контекста, тем проще учесть бриф, регламенты и ограничения, но это не гарантирует истинность: если факта нет в контексте, модель может достроить ответ вероятностно.

Что такое эмбеддинги и зачем они нужны в поиске по базе знаний?

Эмбеддинги — числовые векторы, которые отражают смысл текста. Они позволяют искать не по точному совпадению слов, а по смысловой близости: похожие вопросы, офферы, фразы, документы. Обычно эмбеддинги хранят во векторной базе, чтобы быстро находить релевантные фрагменты и подставлять их в контекст модели.

Что такое RAG и когда он лучше, чем дообучение (fine-tuning)?

RAG (Retrieval-Augmented Generation) — схема «поиск + генерация»: сначала находятся релевантные документы в вашей базе знаний, затем модель отвечает, опираясь на найденные фрагменты. Он лучше, когда знания часто обновляются (политики, офферы, FAQ). Fine-tuning полезнее, когда нужно стабильно закрепить стиль/формат и типовые ответы, а не «подгружать факты».

Почему модель показывает отличный результат в тесте, а в реальности проседает?

Три частые причины: переобучение (модель запомнила шум прошлого), утечка данных (в признаках случайно оказался «ответ из будущего»), дрейф (аукцион, сезонность, креативы и аудитория изменились). Для маркетинга особенно критично резать train/test по времени и мониторить качество в проде, потому что условия открутки меняются быстро.

Что такое переобучение (overfitting) и как его заметить без математики?

Переобучение — когда модель слишком хорошо «объясняет» обучающие данные, но плохо работает на новых. Признак: на обучении метрики отличные, на тесте или в проде заметно хуже. Типичная профилактика: больше разнообразных данных, регуляризация, ранняя остановка, корректная валидация, а для маркетинга — обязательный временной разрез и повторные проверки на новых периодах.

Какие метрики качества ML важнее всего для скоринга лидов и антифрода?

Для редких событий accuracy почти бесполезна. Чаще смотрят precision (насколько «чистые» позитивы), recall (сколько позитивов нашли), F1 (баланс), ROC-AUC (качество ранжирования). Если модель выдаёт вероятность конверсии, важна калибровка (чтобы 0.7 действительно означало «примерно 70%»). Финально ценность подтверждает A/B или holdout-группа.

Как снизить риск «галлюцинаций» и утечек данных при использовании генеративного AI?

Разделяйте задачи: генерация идей и текстов — отдельно, факты/цифры/правила — только из проверяемых источников. Для внутренних регламентов используйте RAG и фиксируйте ссылки на фрагменты, откуда взят ответ. Минимизируйте чувствительные данные в запросах, логируйте вход/выход, храните шаблоны промптов как артефакты, а важные решения подтверждайте экспериментом.

Статьи

24.03.26
Поиск и ленты в досках объявлений: география, фильтры, сортировки и рекомендации
Почему в 2026 «поиск» и «лента» в классифайдах стали разными продуктамиВ 2026 у досок объявлений и маркетплейсов объявлений поиск отвечает...
23.03.26
Инвентарь и ликвидность: как оценивать аккаунт по предметам, торговым ограничениям и истории сделок
Инвентарь и ликвидность: как оценивать аккаунт по предметам, торговым ограничениям и истории сделокАккаунт с «красивым инвентарём» не всегда равен аккаунту...
23.03.26
Как доски объявлений зарабатывают: продвижение, подписки, комиссии и дополнительные сервисы
Как устроена экономика доски объявлений в 2026: почему «трафик» сам по себе не кормитДоска объявлений зарабатывает не на объявлениях как...
22.03.26
Как люди используют доски объявлений: типовые сценарии покупателя и продавца
Зачем арбитражнику и маркетологу вообще разбираться в досках объявлений в 2026Доска объявлений в 2026 — это не «место, где продают...