garpenlov: 40 вопросов джуниору от analyticsvidhya.com, часть 4

Вопросы 31-40

31. Задача классификации. Набор данных случайным образом разбит на train и test. Точность на валидации высокая и Вы уверены, что на test будет также. Но там получается плохая точность. В чём может быть причина?

В задачах классификации всегда следует использовать стратифицированную выборку вместо случайной. Стратифицированная выборка помогает поддерживать распределение целевой переменной в результирующих распределенных выборках. Случайная выборка не учитывает долю целевых классов.

32. Вы оцениваете регрессионную модель на основе R² (Коэффициент детерминации), скорректированного (adjusted) R² и допуска (tolerance). Какие критерии вы подберёте ?

Допуск (1/VIF) используется как индикатор мультиколлинеарности. Это показатель процента дисперсии в предикторе (независимая переменная), который не может быть учтен другими предикторами. Чем больше значения допуска тем лучше.

Мы рассмотрим скорректированное значение R² в отличие от R² для оценки соответствия модели, поскольку R² увеличивается независимо от улучшения точности прогноза по мере добавления большего количества переменных. Но скорректированное значение R² будет увеличиваться только в том случае, если дополнительная переменная повышает точность модели, в противном случае она остается неизменной.

Трудно зафиксировать общее пороговое значение для скорректированного R², поскольку оно разное в зависимости от набора данных. Например: набор данных о генных мутациях может привести к более низкому скорректированному R² и по-прежнему обеспечивать довольно хорошие прогнозы по сравнению с данными фондового рынка, где более низкое скорректированное R² означает, что модель слабая.

33. В k-средних или kNN мы используем евклидово расстояние, чтобы вычислить расстояние между ближайшими соседями. Почему не манхэттенскую метрику?

Мы его не используем , потому что оно рассчитывает расстояние только по горизонтали или вертикали и имеет ограничения по размерам. А евклидова метрика может использоваться в любом пространстве для вычисления расстояния. Поскольку точки данных могут присутствовать в любом измерении, евклидово расстояние является более приемлемым вариантом.

Пример. Движение слона или ладьи на шахматной доске рассчитывается по манхэттенскому расстоянию из-за их вертикальных и горизонтальных движений.

34. Объясните ML 5-летнему ребёнку.

Это как дети учатся ходить. Каждый раз, когда они падают, то учатся и понимают, что ноги должны быть прямыми, а не в согнутом положении. Они падают, чувствуют боль, плачут, но учатся «больше так не стоять». Чтобы избежать этой боли, они стараются изо всех сил. Они ищут поддержки у двери или стены или чего-либо рядом с ними, что поможет им твердо стоять.

Так же машина работает и развивает интуицию благодаря окружающии данным.

Примечание: этот вопрос проверяет, можете ли вы объяснить сложные понятия в простых терминах.

35. Модель линейной регрессии обычно оценивается с использованием скорректированного значения (R² adjusted) или распределения Фишера (F value). Как оценить модель логистической регрессии?

Мы можем использовать следующие методы:

Поскольку логистическая регрессия используется для прогнозирования вероятностей, мы можем использовать кривую AUC-ROC вместе с матрицей ошибок (confusion matrix), чтобы определить её производительность.
Аналогичным показателем скорректированной R² в логистической регрессии является AIC (Akaike's information criterion - критерий выбора из класса параметризованных регрессионных моделей). AIC - это мера соответствия, которая штрафует модель за количество коэффициентов модели. Чем меньше AIC — тем лучше.
Нулевое отклонение указывает ответ, предсказанный моделью при добавлении независимых переменных. Чем ниже значение, тем лучше модель.

36. Учитывая длинный список алгоритмов ML, какой вы выберете, с учетом набора данных?

Выбор алгоритма ML зависит исключительно от типа данных.

Если у вас набор данных с линейной зависимостью, то линейная регрессия. Если вы работаете с изображениями и аудио, то нейронная сеть.

Если данные состоят из нелинейных взаимодействий, то выбирайте алгоритм бустинга или беггинга.

Если бизнес-требование состоит в том, чтобы создать модель, которую можно развернуть, тогда мы будем использовать регрессию или деревья решений (простая интерпретация и объяснение) вместо „алгоритмов черного ящика“ типа SVM, GBM и т. д.

Короче говоря, не существует универсального алгоритма для всех ситуаций.

37. Можно ли предположить, что обработка категориального признака как непрерывного улучшит прогноз модели?
Категориальный признак может рассматриваться как непрерывный, только если имеет порядковый характер.

38. Когда необходима регуляризация?

Регуляризация становится необходимой, когда модель начинает пере- либо не недообучаться. Этот метод вводит штраф для многих признаков с целевой функцией (This technique introduces a cost term for bringing in more features with the objective function). Следовательно, он пытается приблизить веса этих признаков к нулю и сократить штраф. Это помогает снизить сложность модели для улучшения способности прогнозирования и обобщения.

39. Что вы понимаете под дилеммой Смещение-Дисперсия (Bias Variance trade-off)?

Ошибка, возникающая в любой модели, может быть математически разбита на три компонента. Ниже приведены эти компоненты:

Это утверждения полезно для количественной оценки, насколько в среднем прогнозируемые значения отличаются от фактического значения. Высокая ошибка смещения означает, что у нас неэффективная модель. Дисперсия определяет, как предсказания, сделанные для одного и того же наблюдения, отличаются друг от друга. Модель с высокой дисперсией будет соответствовать вашей обучающей выборке и плохо работать с другой вне рамок обучения.

40. OLS (Ordinary Least Squares, по русски - МНК) для линейной регрессии. „Ме́тод максима́льного правдоподо́бия логистической регрессии“ - объясните это утверждение.

Метод наименьших квадратов (OLS или МНК) и Метод максимального правдоподобия - это методы, используемые соответствующими методами регрессии для приближения значения неизвестного параметра (коэффициент, он же вес).

Проще говоря, МНК - это метод, используемый в линейной регрессии, который аппроксимирует параметры, приводящие к минимальному расстоянию между фактическими и прогнозируемыми значениями.

Максимальное правдоподобие помогает в выборе значений параметров, что максимизирует вероятность того, что параметры, скорее всего, приведут к наблюдаемым данным.

garpenlov

воскресенье, 23 декабря 2018 г.

40 вопросов джуниору от analyticsvidhya.com, часть 4

Комментариев нет:

Отправить комментарий

воскресенье, 23 декабря 2018 г.

40 вопросов джуниору от analyticsvidhya.com, часть 4

Комментариев нет:

Отправить комментарий

воскресенье, 23 декабря 2018 г.