В настоящем стандарте применены термины и определения по ИСО/МЭК 22989.
ИСО и МЭК поддерживают терминологические базы данных для применения в сфере стандартизации по следующим адресам:
- онлайн-платформа ИСО: доступна по ссылке: http://www.iso.org/obp;
- Электропедия МЭК: доступна по ссылке: http://www.electropedia.org/.
3.1 Создание и использование моделей
3.1.1 классификационная модель (classification model): <машинное обучение> Модель машинного обучения, где ожидаемый результат для заданных входных данных представляет собой один или несколько классов.
3.1.2 регрессионная модель (regression model): <машинное обучение> Модель машинного обучения, где ожидаемый результат является непрерывной функцией входных данных.
3.1.3 обобщение (generalization): <машинное обучение> Способность обученной модели генерировать правильные результаты на основе новых входных данных.
Примечание 1 - Наиболее обобщающей моделью машинного обучения является модель, которая обеспечивает приемлемую точность генерации результатов на новых входных данных.
Примечание 2 - Обобщение тесно связано с переобучением. Переобученная модель машинного обучения не способна к корректному обобщению данных, поскольку с наибольшей точностью соответствует набору обучающих данных.
3.1.4 переобучение (overfitting): <машинное обучение> Создание модели, с наибольшей точностью соответствующей обучающим данным и не способной к обобщению при использовании новых наборов данных.
Примечание 1 - Переобучение может возникнуть, если обученная модель извлекла уроки из несущественных признаков обучающих данных (т.е. признаков, обобщение которых не приводят к полезным результатам), обучающие данные содержат много шума (например, имеют чрезмерное количество выбросов) или обученная модель чрезмерно сложна для определенных обучающих данных.
Примечание 2 - Признаком переобучения модели является значительная разница между ошибками, измеренными на обучающих данных и на отдельных тестовых и валидационных данных. На производительность переобученных моделей особенно влияет значительная разница между обучающими и эксплуатационными данными.