четверг, 20 декабря 2018 г.

40 вопросов джуниору от analyticsvidhya.com, часть 2




Вопросы 11-20


11. Вы пытаетесь построить модель с высокой точностью, но ни одна из 5 моделей GBM не улучшила эталонный результат. Тогда вы объединяете эти модели, однако результата опять нет. Что вы пропустили?

Как мы знаем, ансамбли классификаторов основаны на идее объединения слабых классификаторов для создания сильных. Но результат будет хорошим, если комбинированные модели не коррелированы. Использование 5 GBM моделей и отсутствие улучшения точности, позволяет предположить, что модели коррелируют, т.е. обрабатывают одинаковую информацию. Например: если модель 1 классифицировала один из объектов как 1, существует высокая вероятность того, что модель 2 и модель 3 сделали бы то же самое, даже если ее фактическое значение равно 0. Поэтому ансамбли классификаторов строятся на предпосылке объединения слабых некоррелированных моделей для получения лучших прогнозов.



12. Чем метод kNN отличается от kmeans?

Не обманитесь буквой „k“ и схожестью названий. Принципиальное различие в том, что kmeans не контролируется (is unsupervised) и это алгоритм кластеризации, а kNN контролируется (is supervised) и это алгоритм классификации или регрессии.
Алгоритм kmeans разделяет набор данных на кластеры так, чтобы сформированный кластер был однородным, а точки в каждом кластере были близки друг к другу. Алгоритм пытается поддерживать достаточную разделимость между этими кластерами. Кластеры не размечены, т. к. это обучение без учителя.
Алгоритм kNN пытается классифицировать неразмеченные данные заданного числа k (любое число) окружающих соседей. Он также известен как „ленивый“ алгоритм, потому что это требует минимального обучения модели. Кроме того, он не использует train для обобщения test.



13. Как связаны True Positive Rate и Recall? Напишите уравнение.
True Positive Rate это и есть Recall (полнота) = TP / (TP + FN)



14. Вы построили модель множественной регрессии (анализ связи между несколькими независимыми переменными (регрессоры, они же предикторы) и зависимой переменной „y“) R², но результат не очень. Тогда вы удаляете свободный член уравнения регрессии, качество меняется с 0.3 до 0.8. Такое возможно?

Да, это возможно.
Нам нужно понять значение термина «свободный член» в регрессионной модели. Свободный член уравнения регрессии показывает прогноз модели без какой-либо независимой переменной, то есть среднего прогнозирования. Формула R² = 1 - ∑ (y - y´) ² / ∑ (y - ymean) ² где y´ - прогнозируемое значение. При наличии свободного члена значение R² оценивает вашу модель относительно среднего значения. В отсутствие свободного члена (ymean) модель не может выполнить такую оценку, поскольку при большом знаменателе значение уравнения ∑ (y - y´) ² / ∑ (y) ² становится меньше фактического, что приводит к более высокому значению R².



15. Как проверить, что регрессионная модель страдает мультиколлинеарностью? Можно ли улучшить модель, не теряя информации?

Для проверки наличия мультиколлинеарности мы можем создать матрицу корреляции, чтобы выявить и удалить признаки, имеющие корреляцию выше 75% (решение о пороге субъективно).
Кроме того, мы можем использовать расчет VIF (variance inflation factor), чтобы проверить наличие мультиколлинеарности. Значение VIF <= 4 предполагает отсутствие мультиколлинеарности, значение >= 10 подразумевает серьезную мультиколлинеарность.
Также мы можем использовать допуск (tolerance) как индикатор мультиколлинеарности.
Но удаление коррелированных признаков может привести к потере информации. Чтобы сохранить эти значения, мы можем использовать штрафующие модели вроде l1 и l2. Кроме того, мы можем добавить некоторый случайный шум в коррелированные признаки чтобы отличать их друг от друга. Но добавление шума может повлиять на точность прогноза, поэтому им надо пользоваться осторожно.



16. Когда l1 предпочтительней l2?

Вы можете процитировать авторов ISLR (An Introduction to Statistical Learning) Hastie и Tibshirani, которые утверждали, что при наличии нескольких переменных среднего/большого размера лучше использовать регрессию Lasso. Если у вас много переменных малого / среднего размера, используйте Ridge регрессию.
Принципиально можно сказать, что регрессия Lasso (L1) осуществляет отбор признаков и сжатие параметров. Ridge (L2) только сжимает параметры и, в конечном итоге, включает все веса в модели. При наличии коррелированных признаков l2 может быть предпочтительней. Кроме того, l2 работает лучше всего в ситуациях, когда MSE имеет более высокую дисперсию.
Выбор зависит от цели нашей модели.



17. Повышение средней мировой температуры привело к уменьшению числа пиратов по всему миру. Означает ли это, что уменьшение количества пиратов вызвало изменение климата?

Это классический случай «причинно-следственной связи». Нет, мы не можем сделать вывод, что уменьшение количества пиратов вызвало изменение климата, потому что могут быть другие факторы, влияющие на это явление. Следовательно, возможна корреляция между средней мировой температурой и количеством пиратов, но на основании этой информации мы не можем сказать, что хотя бы один пират погиб из-за повышения глобальной средней температуры.



18. Как отобрать признаки?
  1. Удалите коррелированные признаки до отбора важных.
  2. Используйте линейную регрессию и отберите признаки на основе значений p (based on p values - ?).
  3. Используйте прямой выбор, обратный выбор, пошаговый выбор (Forward Selection, Backward Selection, Stepwise Selection).
  4. Используйте RandomForresr, Xgboost, посмотрите на графическое представление важности признаков.
  5. Используйте Lasso.
  6. Измерьте прирост информации для доступного набора признаков и выберите из них n лучших.

19. В чем разница между ковариацией и корреляцией?
Ковариации трудно сравнивать. Например, если мы вычислим ковариации зарплаты ($) и возраста (годы), то получим разные ковариации, которые нельзя сравнивать из-за неравных масштабов. Чтобы бороться с такой ситуацией, мы вычисляем корреляцию, чтобы получить значение между -1 и 1 независимо от их масштаба.


20. Как уловить корреляцию между непрерывной и категориальной переменными?
Можно использовать метод ANCOVA (Analysis of covariance) для отображения связи между непрерывными и категориальными переменными.





Комментариев нет:

Отправить комментарий