почему оценка по ощущению почти всегда подводит
Когда команда смотрит на ИИ только через вопрос «понравился ли ответ», она не может стабильно улучшать систему. Один и тот же ответ может показаться хорошим руководителю, бесполезным оператору и опасным для compliance-команды. Значит, нужна не эмоция, а набор проверяемых критериев.
Именно поэтому полезнее раскладывать качество на части: корректность фактов, соблюдение формата, полноту ответа, способность завершить сценарий и частоту ручной переделки. Тогда становится видно не просто «плохо или хорошо», а где именно агент ломается.
какие метрики действительно помогают управлять агентом
Для практических сценариев обычно достаточно пяти групп метрик: точность на контрольном наборе кейсов, доля успешного завершения задачи, среднее время до результата, доля эскалаций человеку и стоимость одного полезного исхода. Эти показатели уже позволяют сравнивать версии сценария между собой и видеть, где улучшение реальное, а где косметическое.
Если агент встроен в продажи, поддержку или внутренние операции, к этому нужно добавлять процессную метрику конкретной функции: конверсию, среднее время ответа, процент закрытых обращений, сокращение очереди или число ошибок в карточках. Иначе можно улучшить текстовую форму ответа, но не улучшить сам бизнес-результат.
как построить систему оценки без дорогой лаборатории
Не нужно ждать идеальную платформу evals. Начните с таблицы типовых кейсов, где каждому сценарию заранее задан ожидаемый результат или минимальный порог приемлемости. Для части задач подойдет ручная выборка, для части автоматическая проверка формата, для части сравнение с эталоном или чек-листом.
Главное правило простое: оценивать нужно не модель в вакууме, а полный рабочий контур. Если агент ищет по базе знаний, заполняет CRM и передает кейс человеку, качество нужно измерять на всем маршруте целиком. Тогда и доработки будут идти в правильное место: в данные, retrieval, логику ветвления или интерфейс оператора.