Идеи, лежащие в основе загадочной и неприступной Data Science, не такие уж и сложные. Возможно, некоторые из них вы давно применяете в повседневной жизни. Если нет — самое время попробовать.
Недообучение, или Чтобы провал не был полным
Модель машинного обучения нужна для того, чтобы восстановить (смоделировать) какой-то реальный процесс по информации, которая о нем имеется.
Самый простой пример: приближенное восстановление неизвестных значений функции по имеющимся точкам графика. Это хорошо работает, когда точек достаточно. Если же их всего две, получится прямая линия, которая, скорее всего, не совпадает с искомой функцией. Если три — результат будет лучше, но всё равно слишком далек от нужного.
В таких случаях говорят, что модель, восстанавливающая график, недообучена. На практике это равносильно либо тому, что она почему-то использует не все данные, либо данных просто недостаточно. А, полный провал, как известно, начинается именно с неполных данных.
Разработка признаков, или Сила в переменных
Признаки в Data Science, или, как их ещё называют, переменные, представляют собой одну из множества колонок в таблице из чисел и символов. Перед построением модели машинного обучения дата-сайентист решает, какие, собственно, колонки должна учитывать модель, чтобы сделать предсказание, классифицировать данные или принять решение.
Этот этап — разработка признаков — наиболее творческая часть работы дата-сайентиста. Здесь творится главная магия: реальность превращается в данные, и от качества этого превращения будет зависеть всё. Например, для определения стоимости квартиры имеют значение расстояние до метро, площадь и планировка. Значит, эти переменные обязательно должны учитываться моделью.
Переобучение, или Синдром отличника
Модели машинного обучения не рождаются сразу готовыми. Сначала их обучают на тренировочной выборке, а затем проверяют качество обучения на тестовом датасете. Часто бывает так, что на тренировочной выборке модель показывает блестящие результаты, а на тестовой с треском проваливается. Тогда говорят, что модель переобучена.
Можно заставить модель определения стоимости квартиры учитывать не только район и площадь, а, например, ещё и цвет обоев, и материал входной двери. Тогда на тренировочной выборке она будет очень точно определять цену. А на тестовой, когда попадутся квартиры, которых модель не видела, скорее всего, результат будет так себе — из-за влияния незначимых переменных.
Reject Inference, или «Нет» — это не навсегда
Модель машинного обучения, встроенная в систему скоринга, решает, выдавать кредит или нет. При этом человек, которому отказали в кредите, может получить деньги в другом месте. Более того, он может оказаться добросовестным заёмщиком, а это прямой убыток первому банку — в виде недополученной прибыли.
Чтобы улучшить работу своих моделей, кредитные организации закупают данные о таких «отказниках» и добавляют их в обучающие выборки. Это и есть, вкратце, суть метода reject inference.
Схожие методы борьбы со смещением данных применяют и в других отраслях, например в онлайн-маркетинге, биржевом трейдинге и даже компьютерном зрении.
Знание отрасли, или Сами мы не местные
Дата-сайентисту мало уметь работать с числами и данными. Ещё нужно хорошо понимать тот участок реальности, который он превращает в числа и данные. Без этого понимания переменные будут слабыми, модель не будет схватывать задачу правильно, а результат не будет иметь смысла. Не за это ему столько платят!
Поэтому, прежде чем внедрять машинное обучение и прочие нейронки на GPT-3, дата-сайентист тратит кучу времени, чтобы разобраться в том, что именно влияет или может повлиять на исследуемый процесс или явление. А это, в свою очередь, требует кругозора, опыта и привычки размышлять.