ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Информационные технологии
ИНТЕЛЛЕКТ ИСКУССТВЕННЫЙ
Оценка робастности нейронных сетей
Часть 1
Обзор
Information technology. Artificial intelligence. Assessment of the robustness of neural networks. Part 1. Overview
ОКС 35.020
Дата введения 2023-01-01
Предисловие
1 ПОДГОТОВЛЕН Федеральным государственным автономным образовательным учреждением высшего образования "Национальный исследовательский университет "Высшая школа экономики" (НИУ ВШЭ) на основе собственного перевода на русский язык англоязычной версии документа, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 2 ноября 2022 г. N 1226-ст
4 Настоящий стандарт идентичен международному документу ISO/IEC TR 24029-1:2021* "Искусственный интеллект (AI). Оценка устойчивости нейронных сетей. Часть 1. Обзор" (ISO/IEC TR 24029-1:2021 "Artificial Intelligence (AI) - Assessment of the robustness of neural networks - Part 1: Overview", IDT).
Наименование настоящего стандарта изменено относительно наименования указанного международного документа для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5)
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Введение
При проектировании системы искусственного интеллекта (далее - ИИ) некоторые свойства, такие как робастность, отказоустойчивость, надежность, точность, безопасность, конфиденциальность и т.д., часто считают предпочтительными. Определение робастности приведено в 3.6. Робастность - важнейшее свойство, которое ставит новые задачи в сфере систем ИИ. Например, в рамках управления рисками систем ИИ существуют некоторые риски, которые конкретно связаны с робастностью этих систем и понимание которых имеет важное значение для внедрения ИИ во многих сферах. В настоящем стандарте представлен обзор актуальных подходов для оценки этих рисков с особым упором на нейронные сети, широко использующиеся в промышленности.
В большинстве отраслей промышленности проверка программного обеспечения - это важнейшая часть любого производственного процесса. Задача состоит в том, чтобы обеспечить как безопасность, так и производительность программного обеспечения, используемого во всех частях системы. В некоторых областях процесс верификации программного обеспечения (включая его обновления) также является важной частью сертификации. Например, в автомобильной или авиационной областях при применении действующих стандартов, таких как ИСО 26262 [1] или DO 178C, необходимо предпринимать определенные действия для обоснования дизайна, реализации и тестирования любого встроенного программного обеспечения.
Методы, используемые в системах ИИ, также подлежат валидации. Однако общие методы в системах ИИ создают новые проблемы, которые требуют конкретных подходов для обеспечения адекватного тестирования и/или проверки.
Типы тех систем, которые основаны на технологиях ИИ, включают системы интерполяции/регрессии, классификации, скоринговые и решающие системы.
Хотя существует множество методов валидации систем, не связанных с ИИ, они не всегда непосредственно применимы к системам ИИ и, в частности, к нейронным сетям. Архитектуры нейронных сетей представляют собой особую проблему, поскольку они не поддаются простому анализу и иногда могут быть непредсказуемы ввиду их нелинейной природы, что требует новых подходов к решению возникающих задач.
Методы подразделяются на три группы: статистические методы, формальные методы и эмпирические методы. В настоящем стандарте представлена справочная информация о существующих методах оценки робастности нейронных сетей.
Отмечается, что характеристика робастности нейронных сетей является открытой областью исследований и что существуют ограничения как для подходов тестирования, так и для процессов валидации.
1 Область применения
В настоящем стандарте представлена справочная информация о существующих методах оценки робастности нейронных сетей.
2 Нормативные ссылки
В настоящем стандарте нормативные ссылки не используются.
3 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями.
ИСО и МЭК поддерживают терминологические базы, используемые в сфере стандартизации и представленные на следующих сайтах:
- платформа онлайн-просмотра ИСО, доступная по адресу: https://www.iso.org/obp;
- Электропедия МЭК, доступная по адресу: https://www.electropedia.org/.
3.1 искусственный интеллект; ИИ (artificial intelligence, AI): <Системная> способность спроектированной системы приобретать, обрабатывать и применять знания и навыки.
3.2 эксплуатационные испытания (field trial): Испытания новой системы в реальных условиях в соответствии с ее назначением (возможно, с ограниченной группой пользователей).
Примечание - Под условиями понимается как окружающая среда, так и процесс использования.
3.3 входные данные (input data): Данные, для которых развертываемая модель машинного обучения вычисляет прогнозируемый результат или вывод.
Примечание - Специалисты по машинному обучению также называют входные данные данными вне выборки, новыми данными и производственными данными.
3.4 нейронная сеть (neural network): Сеть примитивных обрабатывающих элементов, соединенных взвешенными связями с регулируемыми весами, в которой каждый элемент выдает значение, применяя нелинейную функцию к своим входным значениям, и передает его другим элементам или представляет его в качестве выходного значения.
Примечания
1 В то время как некоторые нейронные сети предназначены для моделирования функционирования нейронов в нервной системе, большинство нейронных сетей используются в ИИ в качестве реализаций нейросетевой модели.
2 Примерами нелинейных функций являются пороговая функция, сигмоидальная функция и полиномиальная функция.
[ИСО/МЭК 2382:2015, 2120625, изменено - добавлены сокращенные термины, а примечания 3-5 удалены]
3.5 требование (requirement): Заявление, которое обозначает или выражает необходимость, а также связанные с ней ограничения и условия.
[ISO/IEC/IEEE 15288:2015, 4.1.37]
3.6 робастность (robustness): Способность системы ИИ поддерживать качество работы алгоритмов машинного обучения при любых условиях.
Примечание - В настоящем стандарте главным образом описываются условия, связанные со входными данными, такими как их спектр и характеристики. Но это определение представлено более широко, чтобы не исключать аппаратный сбой и другие виды условий.
3.7 тестирование (testing): Деятельность, в которой система или компонент выполняется в определенных условиях, результаты наблюдают или фиксируют, а также проводят оценку какого-либо аспекта системы или компонента.
[ISO/IEC/IEEE 26513:2017, 3.42]
3.8 тестовые данные (test data): Подмножество выборок входных данных (см. 3.3), используемых для оценки ошибки обобщения окончательной модели машинного обучения, выбранной из набора возможных моделей машинного обучения [2].
3.9 обучающие данные (training dataset): Подмножество выборок, которые подаются в модель машинного обучения.
3.10 валидация (validation): Подтверждение посредством предоставления объективных доказательств того, что требования (см. 3.5) для конкретного предполагаемого использования или применения выполнены.
[ИСО/МЭК 25000:2014, 4.41, изменено - примечание 1 удалено]
3.11 валидационные данные (validation data): Подмножество выборок входных данных (3.3), используемых для оценки ошибки прогнозирования возможной модели машинного обучения [2].
Примечание - Валидация (3.10) модели машинного обучения может быть использована для выбора модели машинного обучения.
3.12 верификация (verification): Подтверждение посредством предоставления объективных доказательств того, что указанные требования выполнены.
[ИСО/МЭК 25000:2014, 4.43, изменено - примечание 1 удалено]
4 Обзор существующих методов оценки робастности нейронных сетей
4.1 Общие положения
4.1.1 Концепция робастности
Цели обеспечения робастности направлены на то, чтобы ответить на вопросы "Какая степень робастности требуется системе?" или "Какие свойства робастности представляют интерес?". Свойства робастности показывают, насколько четко система обрабатывает новые данные по сравнению с результатами обработки данных, ожидаемых в типовых операциях.
4.1.2 Типичный рабочий процесс для оценки робастности
В настоящем пункте рассмотрено проведение оценки робастности нейронных сетей в различных задачах ИИ, таких как классификация, интерполяция и другие сложные задачи.
Существуют различные способы оценки робастности нейронных сетей с использованием объективной информации. Типичный рабочий процесс для определения робастности нейронной сети (или другого метода) представлен на рисунке 1.
|
Рисунок 1 - Типичный рабочий процесс для определения робастности нейронной сети
Шаг 1 Формулировка целей робастности
Процесс начинается с формулирования целей обеспечения робастности. На начальном этапе должны быть идентифицированы объекты тестирования, подлежащие верификации на робастность. С их учетом впоследствии определяют количественные метрики оценки тех элементов, которые показывают достижение робастности. Все это образует набор критериев для принятия решений о свойствах робастности, которые могут быть предметом дальнейшего утверждения соответствующими заинтересованными сторонами (см. ISO/IEC/IEEE 16085:2021, 7.4.2, [3]).
Шаг 2 Планирование тестирования
Этот шаг заключается в планировании проверок, которые демонстрируют робастность. Эти проверки опираются на различные методы, например статистические, формальные или эмпирические. На практике используется комбинация методов. Статистические подходы обычно опираются на процесс математического тестирования и способны проиллюстрировать определенный уровень достоверности результатов. Формальные методы полагаются на формальные доказательства для демонстрации математических свойств в области определения модели. Эмпирические методы основаны на экспериментировании, наблюдении и экспертной оценке. При планировании проверки необходимо определение настроек среды, планирование сбора данных и определение характеристик данных (какие типы данных в каких диапазонах будут использованы, какие граничные условия будут нарушены для проверки робастности и т.д.). Результатом шага 2 является протокол тестирования, который представляет собой документ, выражающий смысл, цели, дизайн и предлагаемый анализ, методологию, мониторинг, проведение тестирования, а также хранение его результатов (более детально содержание протокола тестирования доступно в определении плана клинического исследования, изложенного в ИСО 14155:2020, 3.9, [4]).
Шаг 3 Проведение тестирования
Далее проводят тестирование согласно составленному протоколу тестирования и сбор результатов. Допускается выполнение тестов с использованием реальной среды или моделирования (симуляции) реальной среды, а также потенциально путем комбинации этих двух подходов.
Шаг 4 Анализ результатов
После завершения тестирования результаты тестов анализируют с использованием метрик, выбранных на шаге 1.
Шаг 5 Интерпретация результата
Результаты анализа интерпретируют для принятия обоснованного решения.
Шаг 6 Цель тестирования достигнута?
Решение по робастности системы формулируют по определенным ранее критериям и полученной интерпретации результатов анализа.
Если цели тестирования не достигнуты, проводят анализ процесса, и процесс возвращается к соответствующему предшествующему шагу с целью устранить недостатки, например: путем добавления целей робастности, модификации или добавления метрик, учета различных аспектов для измерения, перепланирования тестов и т.д.
Системы ИИ, которые в значительной степени полагаются на нейронные сети, особенно глубокие нейронные сети (deep neural networks, DNN), имеют недостатки, которые проявляются в виде сбоев поведения системы, напоминающих аналогичные эффекты в программном обеспечении. Типичные ситуации продемонстрированы путем подачи "неблагоприятных примеров" в системы распознавания объектов, например [5]. Эти встроенные ошибки DNN "исправить" непросто. Исследования по этой проблеме показывают, что существуют меры для повышения устойчивости DNN к неблагоприятным примерам, но это работает до определенной степени [6], [7]. Однако, если дефект обнаружен во время процедуры тестирования, система ИИ может сигнализировать о проблеме при обнаружении соответствующего шаблона ввода.
Сбор данных
Сбор данных представляет собой процесс выбора, создания и/или генерации тестовых данных и объектов, необходимых для проведения тестирования.
Иногда этот процесс включает в себя рассмотрение юридических или других нормативных требований, а также различных практических или технических вопросов.
Протокол тестирования содержит требования и критерии, необходимые для сбора данных. Проблемы и методы сбора данных не рассматриваются детально в настоящем стандарте.
Значительное влияние на робастность могут оказывать следующие факторы:
- масштаб значений отдельных измерений;
- разнообразие, репрезентативность и диапазон выбросов;
- выбор реальных или синтетических данных;
- наборы данных, специально используемые для тестирования робастности;
- состязательные и другие примеры, которые исследуют гипотетические крайности предметной области;
- состав наборов данных для обучения, тестирования и валидации.
4.2 Классификация методов
Следуя описанному выше рабочему процессу определения робастности, в настоящем стандарте представлены методы и метрики, применимые к различным типам тестирования, то есть статистические, формальные и эмпирические методы.
Статистические подходы, как правило, основаны на математической оценке некоторых наборов данных, способствуя обеспечению определенного уровня достоверности результатов. Формальные методы полагаются на надежное формальное доказательство, чтобы продемонстрировать математическое свойство в предметной области. В настоящем стандарте формальные методы не ограничены областью синтаксической теории доказательств и включают методы проверки корректности, такие как проверка модели. Эмпирические методы базируются на экспериментах, наблюдениях и экспертных оценках.
Несмотря на то что систему можно охарактеризовать посредством наблюдения или доказательства, в настоящем стандарте выбрано разделение методов наблюдения на статистические и эмпирические. Статистические методы генерируют воспроизводимые показатели робастности на основе заданных наборов данных. Эмпирические методы формируют данные, которые можно проанализировать статистическими методами, но они не обязательно воспроизводимы из-за включения субъективной оценки. Поэтому необходимо, чтобы методы из обеих категорий применялись совместно.
Таким образом, в настоящем стандарте сначала рассмотрены статистические подходы, которые являются наиболее распространенными при оценке робастности. Для них характерен подход к тестированию, определяемый методологией с использованием математических метрик. Затем исследованы подходы к получению формального доказательства, которые используют для оценки робастности и, наконец, представлены эмпирические подходы, основанные на субъективных наблюдениях, которые дополняют оценку робастности, когда статистические и формальные подходы недостаточны или нецелесообразны.
Эти методы не используют для прямой оценки робастности в целом. Каждый из них нацелен на различные аспекты робастности, предоставляя несколько частичных показателей, сочетание которых позволяет оценить робастность.
Эксперты по оценке робастности используют эти методы, чтобы ответить на различные виды вопросов по системе, которую они проверяют, например:
- статистические методы позволяют эксперту по оценке проверить, достигают ли свойства систем предпочтительного целевого порога (например, сколько дефектных единиц произведено);
- формальные методы позволяют эксперту по оценке проверить, доказуемы ли свойства в области использования (например, всегда ли система работает в заданных пределах безопасности);
- эмпирические методы позволяют эксперту оценить ту степень, в которой свойства системы достоверны в тестируемом сценарии (например, является ли наблюдаемое поведение удовлетворительным).
Принцип применения таких методов к оценке робастности заключается в том, чтобы оценить, в какой степени эти свойства сохраняются при изменении условий:
- при использовании статистических методов: как изменение условий влияет на измеренные рабочие характеристики?
- в случае формальных методов: сохраняются ли необходимые свойства при расширении границ области условий (входных данных)?
- при применении эмпирических методов: сохраняются ли свойства в других сценариях?
Следует отметить, что характеристика робастности нейронных сетей является активной областью исследований, и существуют ограничения как для подходов к тестированию, так и к валидации. При использовании подходов к тестированию вариация возможных входных данных вряд ли будет достаточно большой, чтобы обеспечить какие-либо гарантии эффективности системы. Валидационные подходы обычно требуют аппроксимаций для обработки входных данных высокой размерности и большого количества параметров нейронной сети.
5 Статистические методы
5.1 Общие положения
Одним из аспектов робастности является влияние меняющегося окружения на количественные характеристики входных данных, для анализа которых особенно подходят статистические методы. Эти методы позволяют проводить прямую оценку эффективности в различных сценариях с использованием сравнительного анализа.
При использовании статистических методов для вычисления робастности применяют четыре основных критерия:
1) Подходящие оценочные данные. Для того чтобы оценить робастность модели, сначала устанавливают статистические характеристики распределения данных и определяют набор данных, который охватывает входные условия для целевого приложения, либо посредством сбора реальных данных измерений, либо смоделированных данных. Возможны несколько источников данных, таких как: зашумленные данные, которые не учтены при первоначальном обучении модели; данные из приложений аналогичной предметной области; данные из другого, но эквивалентного источника данных. Хотя общего метода оценки релевантности набора данных не существует, и он часто основан на суждениях человека, существуют некоторые методы (например, основанные на промежуточных представлениях данных) для поддержки этого анализа с помощью различных показателей. Оценка робастности моделей нейронных сетей может меняться при использовании различных наборов тестовых данных.
2) Выбор настройки модели. Оценка позволяет сделать заключение о робастности с использованием различных настроек обученной модели (например, точность модели, квантованный вес и т.д.).
3) Выбор метрики или метрик эффективности. В зависимости от контекста, поставленной задачи и характера данных некоторые метрики не всегда могут быть подходящими, поскольку они могут привести к недостоверным результатам. Надлежащий набор метрик (см. 5.2) помогает избежать подобных ситуаций.
4) Метод принятия решения о робастности. Учитывая выбранную метрику, выполняют статистический тест для принятия решения относительно того, является ли модель робастной.
Свойство робастности, оцениваемое с помощью статистических методов, определяется одним или несколькими пороговыми значениями по набору метрик, которые должны быть выполнены на некоторых тестовых данных. Оценка робастности зависит от конкретного случая, учитывая, что определенные организации или ситуации потребуют других целей и метрик робастности, чтобы определить, достигнута ли цель.
Настоящий подраздел соответствует общему рабочему процессу оценки робастности нейронной сети, представленному на рисунке 1. В частности, он сфокусирован на шагах 1, 2 и 3 рабочего процесса, определенного в 4.1.2, а именно на формулировке целей робастности, планировании тестирования и проведении тестирования.
В 5.2 и 5.3 представлены метрики и методы для статистической оценки робастности нейронной сети, более подробная информация по которым доступна в [8], [9], [10] и [11].
5.2 Метрики робастности, имеющиеся в распоряжении статистических методов
5.2.1 Общие положения
В настоящем пункте представлена справочная информация о доступных статистических показателях, которые обычно применяют к выходу нейронных сетей. Здесь приведено описание целей робастности с использованием шага 1 на рисунке 1. Цели робастности должны быть четко определены. Например, простая формулировка, такая как "обученная нейронная сеть должна быть робастной к входным данным, отличным от тех, на которых она была обучена", является недостаточно четко определенной. В зависимости от входных данных нейронная сеть может полностью соответствовать или вовсе не соответствовать этой целевой функции. С одной стороны, нейронная сеть может быть полностью робастной к входным данным, которые следуют распределению, отличному от исходных обучающей и тестовой выборок, но остаются в пределах области определения. С другой стороны, вполне возможна нейронная сеть, которая вообще не соответствует требованиям, если входные данные находятся в совершенно другой области определения, чем те, на которых она была обучена.
Следовательно, целевая функция робастности должна быть сформулирована в достаточной степени, чтобы можно было определить робастность нейронной сети.
Пример четко поставленной цели (структурированной из трех частей) выглядит следующим образом:
- нейронная сеть должна быть устойчивой к входным данным, отличным от тех, на которых она была обучена;
- предполагается, что входные данные относятся к одной области и могут включать как физически реализуемые, так и гипотетические;
- показатели, которые могут быть использованы, включены в 5.2.2.
В зависимости от задачи, решаемой системой ИИ (например, классификация, интерполяция/регрессия), возможны различные статистические метрики. В настоящем подразделе описаны общие статистические метрики и способ их вычисления. Список не является исчерпывающим, и некоторые из этих показателей совместимы с другими задачами. Их можно использовать как отдельно, так и в комбинации. В зависимости от применения существует также множество метрик, специфичных для конкретной задачи [например, BLEU, TER или METEOR для машинного перевода, отношение пересечений и объединений (intersection over union) для обнаружения объектов на изображениях или средняя точность (mean average precision) для качественного ранжированного поиска], но их описание выходит за рамки настоящего стандарта.
5.2.2 Примеры метрик эффективности для интерполяции
5.2.2.1 Среднеквадратичная ошибка или среднеквадратичное отклонение
Среднеквадратичная ошибка (RMSE) - это стандартное отклонение остатков (ошибок прогнозирования). Ошибки прогнозирования - это показатель того, насколько далеко от линии регрессии находятся точки данных, a RMSE - это показатель разброса остатков.
5.2.2.2 Максимальная ошибка
Максимальная ошибка (max error) - это абсолютная или относительная метрика, вычисляющая значение в исходных данных и соответствующее значение в прогнозе системы ИИ. Абсолютная максимальная ошибка - это максимальная разность между значением в исходных данных и соответствующим значением в прогнозе системы ИИ. Относительная максимальная ошибка - это отношение абсолютной максимальной ошибки к реально измеренному значению.
5.2.2.3 Фактическая и прогнозируемая корреляции
Фактическая/прогнозируемая корреляция (actual/predicted correlation) - это линейная корреляция (в статистическом смысле) между фактическими значениями и прогнозируемыми значениями для каждого значения, рассматриваемого в наборе.
5.2.3 Примеры показателей эффективности для классификации
5.2.3.1 Общие понятия и связанные с ними базовые метрики
Набор образцов может иметь следующие характеристики:
- общая совокупность (total population): общее количество образцов в данных;
- положительные образцы (condition positive, CP): количество реальных положительных образцов в данных;
- отрицательные образцы (condition negative, CN): количество реальных отрицательных образцов в данных;
- положительный прогноз (prediction positive, PP): количество образцов, классифицированных как положительные;
- отрицательный прогноз (prediction negative, PN): количество образцов, классифицированных как отрицательные;
- распространенность (prevalence): доля определенного класса в общем количестве образцов.
Каждый экземпляр в наборе образцов классифицируется системой классификации по одному из следующих принципов:
- истинно положительный экземпляр (TP, попадание): экземпляр принадлежит классу и прогнозируется как принадлежащий классу;
- истинно отрицательный экземпляр (TN, правильный отказ): экземпляр не принадлежит классу и прогнозируется как не принадлежащий классу;
- ложноположительный экземпляр (FP, ложная тревога, ошибка типа I): экземпляр не принадлежит классу и прогнозируется как принадлежащий классу;
- ложноотрицательный экземпляр (FN, промах, ошибка типа II): экземпляр принадлежит классу и прогнозируется как не относящийся к классу.
Несколько метрик построены на основе этих выборочных характеристик, как представлено в таблице 1:
- доля истинно положительных результатов (true positive rate, TPR), чувствительность (sensitivity): доля истинно положительных результатов (также известная как чувствительность, полнота или вероятность обнаружения) указывает на долю объектов, правильно классифицированных как положительные, в общем количестве действительно положительных объектов;
- доля истинно отрицательных результатов (true negative rate, TNR), специфичность (specificity): доля истинно отрицательных результатов (также известная как специфичность или избирательность) указывает долю объектов, правильно классифицированных как отрицательные, в общем количестве отрицательных объектов;
- доля ложноположительных результатов (false positive rate, FPR): доля ложноположительных результатов (также известная как выпадение или вероятность ложной тревоги) указывает долю объектов, ошибочно классифицированных как положительные, которые являются отрицательными. Таким образом задается вероятность ложной тревоги;
- доля ложноотрицательных результатов (false negative rate, FNR): доля ложноотрицательных результатов (также известная как доля промахов) указывает на долю объектов, ложно классифицированных как отрицательные, в общем количестве положительных объектов;
- достоверность (accuracy, ACC): достоверность указывает долю всех правильно классифицированных объектов;
- положительная прогностическая ценность (positive predictive value, PPV): положительная прогностическая ценность (также известная как точность или релевантность) указывает долю результатов, правильно классифицированных как положительные среди общего числа результатов, классифицированных как положительные;
- отрицательная прогностическая ценность (negative predictive value, NPV): отрицательная прогностическая ценность (также известная как способность разделения) указывает долю результатов, правильно классифицированных как отрицательные среди общего числа результатов, классифицированных как отрицательные;
- коэффициент ложного обнаружения (false discovery rate, FDR): коэффициент ложного обнаружения указывает соотношение ошибочно отклоненных нулевых гипотез (ложные срабатывания, ложные тревоги, ошибки типа I) к общему количеству отклоненных нулевых гипотез (положительные результаты прогнозирования);
- коэффициент ложных пропусков (false omission rate, FOR): коэффициент ложных пропусков указывает на соотношение ошибочно отклоненных ложных отрицательных результатов к общему количеству прогнозируемых отрицательных результатов;
- диагностическая вероятность (diagnostic odds rate, DOR): указывает отношение вероятности истинных положительных результатов к вероятности ложных положительных результатов и не зависит от распространенности.
Таблица 1 - Характеристики выборки и соответствующие базовые показатели, построенные на их основе
|
|
|
|
|
|
|
|
| Истинные |
| |||
| Вся популяция, общее количество | Положительные образцы CP | Отрицательные образцы CN | Распространенность | Достоверность | |
Предсказанные | Положительные образцы | Истинно положительные экземпляры ТР
Мощность | Ложноположительные экземпляры FP
Ошибка I рода | Положительная прогностическая ценность Точность, релевантность | Доля ложных открытий | |
| Отрицательные образцы | Ложноотрицательные экземпляры FN
Ошибка II рода | Истинно отрицательные экземпляры TN | Коэффициент ложных пропусков | Отрицательная прогностическая ценность | |
|
| Доля истинно положительных результатов Чувствительность, полнота
Вероятность определения | Доля ложноположительных результатов fall-out, вероятность ложной тревоги | Отношение положительного правдоподобия | Диагностическая вероятность | Оценка F1
|
|
| Доля ложно-отрицательных результатов Доля промахов, | Доля истинно отрицательных результатов Специфичность, избирательность | Отношение отрицательного правдоподобия |
|
|
В таблице 1 представлено обобщенное представление характеристик и показателей выборки, описанных в настоящем подразделе. Все эти выборочные характеристики и метрики применимы в первую очередь к бинарной классификации, но также имеют обобщенные определения в многоклассовых случаях и случаях со множественными метками.
5.2.3.2 Расширенные метрики
Кривая точности-полноты
Пары метрик "точность/полнота" вычисляют при разных пороговых значениях вывода. Пары "точность/полнота" отражают компромиссы между точностью и полнотой, когда эти метрики используют для оценки робастности.
Рабочая характеристика приемника (ROC)
Кривая ROC (Receiver operating characteristic) представляет собой график зависимости пропорции истинно положительных результатов в зависимости от пропорции ложноположительных результатов при различных настройках гиперпараметров (например, порога принятия решения).
ROC отражает компромисс между долями истинно положительных и ложноположительных показателей, когда эти показатели используют для оценки робастности. Кривые ROC применяют, когда один показатель связан со значительными затратами или преимуществами при оценке робастности, например: в области медицины, где ложные диагнозы могут приводить к критическим последствиям.
5.2.3.3 Подъем (lift)
Метрика подъема - это мера, сравнивающая относительную эффективность системы прогнозирования с другой контрольной группой (обычно выбираемой случайным образом).
5.2.3.4 Площадь под кривой
Площадь под кривой измеряет интеграл кривой рабочих характеристик приемника ROC, которая представляет эффективность модели для каждого порога классификации. Кривая ROC показывает долю истинных положительных результатов относительно доли ложноположительных результатов.
5.2.3.5 Сбалансированная достоверность
Сбалансированная достоверность (balanced accuracy) - это средняя полнота, полученная по каждому классу [12].
5.2.3.6 Микроусреднение и макроусреднение
В случаях несбалансированных наборов данных такие показатели, как точность или полнота, рассчитанные для всего набора данных, иногда дезориентируют. Возможной стратегией для решения этой проблемы является вычисление метрики макроусреднения, которая представляет собой среднее значение показателя, вычисленного для каждого класса отдельно, вместо метрики микроусреднения, которую используют стандартным вычислением без разделения классов [13].
5.2.3.7 Коэффициент корреляции Мэтьюза
Коэффициент корреляции Мэтьюза (Matthews correlation coefficient, MCC) - это мера по набору классификаций (предсказаний). Его диапазон лежит в пределах [-1, +1], в котором +1 представляет точное предсказание, -1 - противоположное предсказание, а 0 - среднее предсказание. Следует отметить, что эта метрика обобщается в тех случаях, когда классы не сбалансированы в исходных данных (то есть значение МСС равно 0 для случайного классификатора на N классах, даже если точность этого классификатора отличается от 1/N) [14], [15].
Коэффициент корреляции Мэтьюза МСС вычисляют по формуле
5.2.3.8 Матрица ошибок и связанные метрики
Матрица ошибок (confusion matrix) позволяет провести подробный анализ эффективности классификатора и помочь обойти или выявить слабые места отдельных метрик, поскольку она обеспечивает более четкий и всесторонний анализ эффективности классификатора. Напротив, использование матрицы ошибок в качестве единственной меры эффективности классификатора недостаточно информативно для проведения этого анализа, так как оно не указывает, какие классы наиболее распознаются или какой тип ошибок совершает классификатор.
Для получения доступа к полной версии без ограничений вы можете выбрать подходящий тариф или активировать демо-доступ.