Мое сообщество ВКонтакте https://vk.com/pymagic
Telegram https://t.me/pymagic
Ссылка на мануал с обновленным кодом https://github.com/miracl1e6/manual-pipeline-data-science
Таймкоды:
00:00 Разбор алгоритма построение модели машинного обучения в Jupyter Notebook
00:42 С чего начинать исследование в ноутбуке? О важности написания качественного кода, стандарты PEP8, расширения для Jupyter Notebook
02:06 Загрузка данных
02:28 Смотрим на размер датасета, основные статистики, для чего это важно?
04:04 EDA - Разведочный анализ данных + про гипотезы, как на основании гипотез строить графики
04:53 Как заполнять пропуски в данных
05:34 Обработка выбросов
06:12 Анализ распределения целевой переменной, зависимости, логарифмирование, обработка категориальных признаков
09:12 Моделирование при помощи ML. Нормализация и когда она нужна перед использованием моделей
10:07 Разбиение на тренировочные и тестовые данные
10:40 Как производить отбор значимых признаков
12:11 Выбор метрик для задачи регрессии или классификации
13:41 Baseline
14:40 Подбор оптимальных значений для гиперпараметров, рассмотрение разных способов + кросс-валидация
15:52 Обучение итоговой модели при помощи наилучших значений найденных гиперпараметров
16:45 Что делать дальше?
17:06 Feature importance, Permutation, SHAP / Подходы к интерпретации моделей
19:31 Как описать результаты работы? Почему это важно?
21:33 Ваши комментарии и дополнения. Сообщество PyMagic в ВКонтакте/Telegram
#DataScience #ityoutubersru