Ключевые термины AI/ML/DL: словарь новичка

Ключевые термины AI/ML/DL: словарь новичка
0.00
(0)
Просмотров: 40427
Время прочтения: ~ 8 мин.
Нейросети
19.01.26

Коротко по статье:

  • Зачем словарь AI в 2026: вместо «магии» — выбор между ML, правилами, генеративным помощником и дисциплиной данных.
  • Триггер из практики media buying: просадка CPA/ROAS → фиксируем цель, источник истины и эксперимент проверки эффекта.
  • Границы терминов: AI как зонтик, ML как обучение на данных, DL как нейросети, generative AI как генерация контента.
  • База данных: датасет, лейбл, признаки, фича инжиниринг; типичная боль — разрозненность трекера, CRM и аналитики.
  • Почему модели ломаются: overfitting, утечка данных, drift; надежнее резать train/test по времени.
  • Карта задач и оценка: классификация, регрессия, кластеризация, рекомендации; метрики accuracy, precision, recall, F1, ROC-AUC, logloss и проверка через A/B или holdout.

Определение

Словарь AI/ML/DL и генеративного AI для маркетологов и media buying, который помогает не путать уровни технологий и корректно ставить задачи. Практический цикл: фиксируем KPI, источник истины и способ проверки, затем описываем данные и тип задачи и выбираем подход (правила, ML, DL, LLM/RAG), контролируя риски overfitting, drift, утечек и галлюцинаций.

 

Содержание

Если вы в media buying или интернет-маркетинге, то AI-термины в 2026 лезут в каждый бриф: «дай модель предсказания CR», «подключим LLM к базе знаний», «сделаем RAG для саппорта», «зальём датасет и дообучим». Проблема новичка обычно не в том, что он «не знает математику», а в том, что он путает уровни понятий и из-за этого неверно оценивает сроки, бюджет и риски.

Зачем вам словарь AI в 2026, если вы закупаете трафик?

Чтобы перестать покупать «магическое решение» и начать покупать понятный результат: где нужен ML, где хватит правил, где нужен генеративный помощник, а где нужна дисциплина данных и аналитики.

Типичный рабочий триггер: вы приносите отчёт по открутке, видите просадку CPA/ROAS, и на созвоне звучит «давайте внедрим AI». В этот момент полезно быстро ответить себе на три вопроса: что именно хотим оптимизировать (сигнал), где возьмём данные (источник истины), как проверим эффект (эксперимент). Дальше словарь превращается из «теории» в язык постановки задач.

Совет эксперта от npprteam.shop, практик performance-маркетинга: "Если в задаче нет чёткой метрики успеха (например, снижение CPA при сохранении объёма конверсий) и способа проверки (A/B или хотя бы holdout-группа), то «внедрение AI» почти всегда превращается в дорогое творчество."

AI, ML и DL: как не путать уровни

AI — зонтик, ML — подход «учимся по данным», DL — подмножество ML на нейросетях; генеративный AI — класс моделей, которые создают контент (текст, изображения, аудио) и часто построены на DL.

ТерминГраница смыслаЧто делаетМаркетинговый примерЧастая ошибка
AI (искусственный интеллект)Любые системы, имитирующие «умные» решенияПринимает решения по правилам или по даннымАнтифрод-правила, авто-маршрутизация лидовДумать, что AI = нейросеть
ML (машинное обучение)Модели учатся на примерахНаходит закономерности в данныхПрогноз конверсии по признакам, скоринг лидовИгнорировать качество данных
DL (глубокое обучение)Нейросети с большим числом слоёв/параметровУчит представления без ручной инженерии признаковМодерация креативов, распознавание текста/объектовСчитать, что «нейросеть решит всё сама»
Generative AI (генеративный AI)Модели, создающие новые объектыГенерирует текст/картинки/аудио по запросуЧерновики копирайта, варианты креативов, идеи офферовПутать генерацию с прогнозом метрик

На практике это означает простую вещь: если вам нужно «предсказать» (CR, LTV, риск фрода), чаще всего речь про ML; если нужно «создать» (текст, визуал, сценарий), чаще про генеративный AI; если нужно «выполнять по регламенту» (проверки, маршрутизация), нередко достаточно правил и хорошей аналитики.

Данные, признаки и датасеты: из чего собирается ML

ML не «понимает бизнес», он видит таблицу: строки — объекты (показы/клики/пользователи), столбцы — признаки, плюс целевая переменная, которую мы хотим предсказать.

Датасет — набор примеров; лейбл (разметка) — «правильный ответ» для обучения; признаки — любые измеримые свойства (источник трафика, устройство, время, частота контактов, глубина сессии); фича инжиниринг — превращение сырого лога в признаки, пригодные для модели. В маркетинге чаще всего боль не в отсутствии данных, а в том, что они «разные»: часть в трекере, часть в CRM, часть в аналитике, а часть в таблицах.

Что считать «источником истины» в отчётах

Источник истины — это место, где вы договорились фиксировать факт события и его атрибуты так, чтобы потом можно было повторить расчёт и объяснить расхождения.

Если одна команда считает конверсию по трекеру, другая по CRM, третья по аналитике, модель будет учиться на шуме. В постановке задачи полезно заранее записать: что считаем конверсией (lead, sale, approved), какое окно атрибуции, что делаем с отменами и дублями, как учитываем задержку конверсий.

Что такое обучение и почему модели «ломаются» на новых кампаниях?

Обучение — это настройка параметров модели так, чтобы она хорошо предсказывала цель на похожих данных; «ломается» модель обычно из-за переобучения, утечек данных или сдвига распределения (drift), когда реальность стала другой.

Почему overfitting опасен именно для маркетинга

Переобучение — когда модель запоминает прошлое слишком буквально и теряет способность работать на новых условиях.

В media buying условия меняются постоянно: новые связки, сезонность, изменения аукциона, модерация, креативное выгорание, новые лимиты. Если модель «влюбилась» в частные паттерны прошлого месяца, она даст красивый отчёт на тесте и слабый результат в проде.

Как распознать утечку данных до запуска в прод?

Утечка данных (data leakage) — когда в признаки случайно попадает информация из будущего или из самой цели, и модель «читает ответ».

Маркер утечки — подозрительно высокий результат на офлайн-валидации и резкая деградация в бою. Типовые источники: признаки, посчитанные после конверсии (например, «число покупок» при прогнозе покупки), смешивание событий по времени, неправильный разрез train/test без учёта хронологии.

Совет эксперта от npprteam.shop, маркетинговый аналитик: "Если прогнозируете конверсию или LTV, режьте train/test по времени, а не случайно. Для трафика это ближе к реальности: модель видит прошлое и пытается предсказать будущее, а не угадывает внутри одного мешка."

Модели и задачи: классификация, регрессия, кластеризация, рекомендательные системы

Почти все прикладные ML-задачи в маркетинге сводятся к четырём типам: выбрать класс, предсказать число, сгруппировать похожих, порекомендовать следующий шаг.

Классификация отвечает «да/нет» или «какой из вариантов»: будет ли лид качественным, риск фрода высокий или нет, какой креатив вероятнее пройдёт модерацию. Регрессия предсказывает число: ожидаемый доход, вероятность конверсии как число, прогноз LTV. Кластеризация группирует аудитории по поведению без разметки: сегменты по паттернам потребления, по отклику на офферы. Рекомендательные системы выбирают «что показать дальше»: товар, контент, оффер, последовательность касаний.

Если вы ставите задачу команде, формулируйте её не как «сделайте нейросеть», а как «нам нужна классификация качества лида с приоритетом на минимизацию ложноположительных» или «нам нужен прогноз вероятности конверсии для ранжирования трафика».

Генеративный AI: LLM, диффузия, мультимодальность

Генеративные модели создают новый контент: LLM — текст (и не только), диффузионные модели — изображения и видео через последовательное «очищение» шума, мультимодальные модели работают с несколькими типами данных сразу.

LLM (большие языковые модели) удобны там, где есть текст: брифы, скрипты, саппорт, классификация обращений, извлечение сущностей из документов. Диффузия полезна для визуала: вариации баннеров, стилизация, генерация концептов. Важная оговорка для маркетолога: генерация контента — не гарантия роста метрик; это ускоритель производства вариантов, а валидирует эффект всё равно эксперимент.

Диффузионный подход в современной форме описан как вероятностная модель, которая учится обращать процесс «зашумления» и шаг за шагом восстанавливать изображение; поэтому генерация выглядит как серия итераций от шума к картинке.

Токены, эмбеддинги и контекст: как LLM «читает» ваш бриф

LLM видит текст как последовательность токенов, превращает их во векторы (эмбеддинги) и генерирует продолжение, опираясь на контекст и вероятности.

Под капотом: почему LLM уверенно говорит чушь

Первый факт: базовый режим LLM — предсказывать следующее слово/токен, а не проверять истинность, поэтому «уверенный тон» не равен «верной информации».

Второй факт: температура и сэмплинг управляют разнообразием генерации; чем больше разнообразие, тем выше риск «галлюцинаций» в деталях, особенно в цифрах, именах и ссылках.

Третий факт: длинный контекст помогает удерживать больше входных данных, но не превращает модель в «базу знаний»; если нужного факта нет в контексте, модель будет достраивать ответ из статистических ассоциаций.

Четвёртый факт: «заземление» (grounding) достигается не магией, а инженерией: подключением поиска по вашим документам, строгими форматами ответов, проверками и пост-обработкой.

Пятый факт: лучше всего LLM показывает себя как инструмент для ускорения рутины (черновики, перефразирование, структурирование), а не как автономный источник истины по регламентам и цифрам.

Промптинг, fine-tuning и RAG: когда что выбирать

Промптинг меняет поведение за счёт инструкции, fine-tuning меняет модель обучением на примерах, RAG добавляет модели доступ к вашим данным через поиск и подстановку контекста.

ПодходКогда подходитЧто нужноТиповой риск
Промптинг (инструкции)Нужен быстрый результат и гибкостьЧёткое ТЗ, примеры хорошего/плохого ответаНестабильность при изменении формулировок
Fine-tuning (дообучение)Нужен устойчивый стиль/формат, много однотипных кейсовНабор пар «вход-выход», контроль качества данныхЗакрепление ошибок в данных, сложнее откатывать
RAG (поиск + генерация)Нужно отвечать на основе ваших документов и свежих данныхКорпус документов, разбиение на фрагменты, поиск, пере-ранжирование«Мусор на входе» из базы знаний даёт «мусор на выходе»
Инструментальный режим (tools/agent)Нужно не только говорить, но и выполнять шаги в системахДоступы, логирование, ограничения, проверки действийОшибки автоматизации и утечки данных без контроля

Практический выбор для маркетинга часто простой: если у вас проблема «знания» (регламенты, продукт, FAQ, спецификации офферов), RAG обычно даёт больше пользы, чем дообучение; если проблема «формата» (одинаковый стиль карточек, строгая структура отчётов), fine-tuning оправдан; если проблема «сделай прямо сейчас черновик», достаточно промптинга.

Как мерить качество: метрики, валидация, A/B и офлайн-тесты

Качество модели — это не «нравится/не нравится», а понятная метрика, измеренная на данных, которые похожи на будущую реальность, плюс проверка в эксперименте.

МетрикаЧто измеряет простыми словамиГде полезна в маркетингеЛовушка интерпретации
AccuracyДоля правильных ответовГрубые классификации при сбалансированных классахБесполезна при редких событиях (фрод, покупка)
PrecisionНасколько «чистые» позитивные предсказанияКогда дорого ошибиться, признав лид качественнымМожно завысить, предсказывая «позитив» очень редко
RecallСколько реальных позитивов нашлиКогда важно не пропустить хорошие лидыРост recall часто снижает precision
F1Баланс precision и recallКомпромиссные задачи качества лидов/фродаСкрывает, что именно просело: precision или recall
ROC-AUCНасколько хорошо модель ранжируетСкоринг, приоритизация лидов, ранжирование трафикаВысокий AUC не гарантирует бизнес-эффект на пороге
LoglossШтраф за уверенные ошибки вероятностейКалибровка вероятностей конверсииНепонятна бизнесу без перевода в деньги

Для медийки и перформанса добавляется второй слой: даже если офлайн-метрика хорошая, нужно проверить влияние на KPI через A/B, потому что модель меняет поведение системы (распределение бюджета, приоритет лидов, частоту касаний). Если нет возможности A/B, используйте хотя бы отложенную группу (holdout) и сравнение по времени с поправкой на сезонность.

Практический глоссарий и типовые риски: 30 терминов, которые чаще всего всплывают в задачах

Ниже — компактный словарь с «переводом на маркетинговый». Если вы читаете ТЗ от продакта или дата-саентиста, эти термины встречаются чаще остальных.

ТерминЧто этоКак проявляется в работе маркетолога
Dataset (датасет)Набор примеров для обучения/тестаВыгрузка событий, лидов, продаж, статусов, затрат
Label (лейбл)Правильный ответ для обученияКачественный/некачественный лид, покупка/нет
Feature (признак)Столбец данных, «сигнал»Источник, устройство, частота, глубина, цена клика
Train/Validation/TestРазделение данных для обучения и проверкиПроверка, что модель не «подглядела» ответы
Overfitting (переобучение)Модель запомнила прошлое, а не закономерностьОтчёт красивый, в проде просадка качества
Drift (дрейф)Данные/аукцион/аудитория изменилисьСвязка выгорела, сезонность сместилась, правила платформы обновились
Data leakage (утечка данных)В признаки попало «будущее» или сама цельМодель «угадывает» на тесте и ошибается в бою
Hyperparameter (гиперпараметр)Настройка обучения, задаётся вручнуюКоманда просит время на подбор, иначе качество нестабильно
Epoch (эпоха)Проход по датасету при обученииНе «больше — лучше»: можно переобучиться
Batch (батч)Пачка примеров за один шаг обученияВлияет на скорость обучения и стабильность
Embedding (эмбеддинг)Векторное представление смыслаПоиск похожих запросов, товаров, креативов
Vector DB (векторная база)Хранилище эмбеддингов для поискаБыстрый поиск по базе знаний для RAG
RAGПоиск документов + генерация ответаОтветы по регламентам, продукту, условиям офферов
Prompt (промпт)Инструкция моделиШаблон брифа для генерации текста/креатива
TemperatureКонтроль разнообразия генерацииБольше вариантов идей, выше риск неточностей
Fine-tuningДообучение на ваших примерахФиксированный стиль описаний, строгие форматы отчётов
LoRA/PEFTЭкономное дообучение «адаптерами»Дешевле менять поведение модели под узкую задачу
Quantization (квантизация)Сжатие весов модели для скорости/дешевизныДешевле инференс, иногда падает качество
Distillation (дистилляция)«Учитель» обучает более лёгкую модельУскорение и удешевление при массовых запросах
Inference (инференс)Работа модели на новых данныхСтоимость на каждый запрос и задержка ответа
Hallucination (галлюцинация)Правдоподобная выдумкаОпасно в цифрах, правилах, юридических формулировках
Grounding (заземление)Ответ только из предоставленных источниковПолезно для саппорта и внутренних регламентов
Benchmark (бенчмарк)Стандартный тест сравненияНе равен вашему KPI, нужен перевод в бизнес-эффект
Monitoring (мониторинг)Наблюдение за качеством в продеПонять, когда модель деградирует и её пора обновлять
MLOpsПроцессы разработки и эксплуатации моделейВерсионирование данных, логирование, контроль релизов
Attribution (атрибуция)Как распределяем заслугу между касаниямиБез единой логики модель учится на противоречиях
Uplift (инкрементальность)Эффект «сверху», а не просто корреляцияПонимать, что реально меняет поведение, а что совпало
Look-alike (похожие аудитории)Поиск похожих на конвертящихся пользователейБаза для масштабирования при контроле качества
Fraud detection (антифрод)Поиск подозрительных паттерновСнижение потерь от ботов и мотивированного трафика
Churn (отток)Риск ухода пользователяСегментация и удержание, особенно в подписках
LLMБольшая языковая модельПомощник по текстам и структурированию знаний
Diffusion model (диффузия)Генерация изображений через «очистку» шумаВарианты визуалов и концептов для креативов

Теперь про риски, которые в 2026 чаще всего бьют именно по маркетологам. Первый — утечки данных: когда в промпты или в внешние AI-инструменты утекают клиентские данные, бюджеты, исходники, доступы. Второй — «галлюцинации» в цифрах: модель может уверенно назвать несуществующий факт или «придумать» правило площадки. Третий — отсутствие контроля версий: вы меняете формулировку запроса или источник данных, и качество «плавает», а найти причину сложно.

Рабочая защита без усложнений: минимизировать чувствительные данные в запросах, разделять «креативную генерацию» и «точные факты», фиксировать шаблоны промптов как артефакт (как креатив или трекинг-план), логировать вход/выход, а для ответов по регламентам использовать подход RAG, где модель опирается на ваши тексты и ссылки на источники.

Другие статьи

Об авторе

NPPR TEAM
NPPR TEAM

Арбитражная команда, специализирующаяся на продвижении различных офферов в зарубежных регионах, таких как Европа, США, Азия и Ближний Восток . Они активно используют различные источники трафика, включая Facebook, Google, тизерные сети и SEO. Команда также разрабатывает и предоставляет бесплатные инструменты для арбитражников, такие как генераторы white-page, квизов и уникализаторы. NPPR TEAM делится своим опытом через кейсы и интервью, предоставляя информацию о своих успехах и подходах в арбитраже трафика.​

Часто задаваемые вопросы

В чем разница между AI, ML и DL простыми словами?

AI — общий термин для систем, которые решают задачи «как будто разумно». ML — часть AI, где модель учится на данных и делает прогнозы. DL — часть ML на нейросетях, которая лучше работает с неструктурированными данными (текст, изображения, аудио), но требует больше данных, вычислений и контроля качества.

Что такое датасет, лейблы и признаки, и почему без них ML не взлетает?

Датасет — таблица примеров, на которых учится модель. Лейбл — правильный ответ (конверсия/нет, фрод/нет). Признаки — измеримые свойства (источник, устройство, время, частота, стоимость клика). Если лейблы шумные или признаки собраны по разным правилам в трекере/CRM/аналитике, модель учится на хаосе и даёт нестабильные прогнозы.

Что такое LLM и чем она отличается от «обычного ML»?

LLM — большая языковая модель, которая работает с текстом через токены и вероятностно генерирует продолжение, опираясь на контекст. «Обычный ML» чаще решает табличные задачи: классификацию (да/нет), регрессию (число), скоринг. LLM сильна в тексте: черновики, структурирование, поиск смысла, но факты и цифры требуют заземления и проверок.

Что такое токены и почему длина контекста важна для качества ответа?

Токены — кусочки текста, в которые модель «нарезает» запрос и контекст. Длина контекста — сколько токенов модель может держать «в памяти» за один запрос. Чем больше контекста, тем проще учесть бриф, регламенты и ограничения, но это не гарантирует истинность: если факта нет в контексте, модель может достроить ответ вероятностно.

Что такое эмбеддинги и зачем они нужны в поиске по базе знаний?

Эмбеддинги — числовые векторы, которые отражают смысл текста. Они позволяют искать не по точному совпадению слов, а по смысловой близости: похожие вопросы, офферы, фразы, документы. Обычно эмбеддинги хранят во векторной базе, чтобы быстро находить релевантные фрагменты и подставлять их в контекст модели.

Что такое RAG и когда он лучше, чем дообучение (fine-tuning)?

RAG (Retrieval-Augmented Generation) — схема «поиск + генерация»: сначала находятся релевантные документы в вашей базе знаний, затем модель отвечает, опираясь на найденные фрагменты. Он лучше, когда знания часто обновляются (политики, офферы, FAQ). Fine-tuning полезнее, когда нужно стабильно закрепить стиль/формат и типовые ответы, а не «подгружать факты».

Почему модель показывает отличный результат в тесте, а в реальности проседает?

Три частые причины: переобучение (модель запомнила шум прошлого), утечка данных (в признаках случайно оказался «ответ из будущего»), дрейф (аукцион, сезонность, креативы и аудитория изменились). Для маркетинга особенно критично резать train/test по времени и мониторить качество в проде, потому что условия открутки меняются быстро.

Что такое переобучение (overfitting) и как его заметить без математики?

Переобучение — когда модель слишком хорошо «объясняет» обучающие данные, но плохо работает на новых. Признак: на обучении метрики отличные, на тесте или в проде заметно хуже. Типичная профилактика: больше разнообразных данных, регуляризация, ранняя остановка, корректная валидация, а для маркетинга — обязательный временной разрез и повторные проверки на новых периодах.

Какие метрики качества ML важнее всего для скоринга лидов и антифрода?

Для редких событий accuracy почти бесполезна. Чаще смотрят precision (насколько «чистые» позитивы), recall (сколько позитивов нашли), F1 (баланс), ROC-AUC (качество ранжирования). Если модель выдаёт вероятность конверсии, важна калибровка (чтобы 0.7 действительно означало «примерно 70%»). Финально ценность подтверждает A/B или holdout-группа.

Как снизить риск «галлюцинаций» и утечек данных при использовании генеративного AI?

Разделяйте задачи: генерация идей и текстов — отдельно, факты/цифры/правила — только из проверяемых источников. Для внутренних регламентов используйте RAG и фиксируйте ссылки на фрагменты, откуда взят ответ. Минимизируйте чувствительные данные в запросах, логируйте вход/выход, храните шаблоны промптов как артефакты, а важные решения подтверждайте экспериментом.

Статьи