Акции школ
Войти

Анализ данных: финальный проект

Интенсивный курс по разработке проекта в области анализа данных от МФТИ. Возможность бесплатного участия. Включает 7 модулей и предполагает 4 часа занятий в неделю. Подойдёт специалистам Data Science. Под руководством специалистов студенты создадут актуальный проект с нуля – от подготовки данных до построения финальной модели и оценки её качества. Разработка в области медиа, информационного поиска, бизнес-аналитики. Сертификат по окончании.

Подробнее


Сложный
Бесплатно

Компания: coursera (курсера)

Язык: ru

Длительность курса

Длительность курса

49 дней

Формат обучения

Формат обучения

Видеолекции, практические упражнения 4 часа в неделю

Обратная связь

Обратная связь

Общение с учащимися и преподавателями на форумах курса

Теория и практика

Теория и практика

10 видео (7 часов) 7 материалов для самостоятельного изучения Работа над проектом около

Чему научитесь

Самостоятельно проходить этапы анализа данных — от подготовки данных до построения финальной модели и оценки её качества

- Подготавливать данные для дальнейшего анализа и построения прогнозных моделей
- Заниматься визуальным анализом данных и построением признаков
- Сравнивать на кросс-валидации несколько алгоритмов, разбираться, какие параметры длины сессии лучше использовать
- Обрабатывать данные, выбирать схему кросс-валидации и определяться с метриками качества
- Понимать концепцию стохастического градиентного спуска
- Работать с популярной библиотекой Vowpal Wabbit
- Оформлять результат, используя интерактивные графики

Перейти на страницу курса Запишись на курс
прямо сейчас!

в любое время 49 дней Кураторы: нет

О курсе

О курсе

в любое время 49 дней Кураторы: нет
Аналитикам данных

Неделя 1: Lesson Choices

В этом проекте мы будем решать задачу идентификации пользователя по его поведению в сети Интернет. Это сложная и интересная задача на стыке анализа данных и поведенческой психологии. В качестве примера, компания Яндекс решает задачу идентификации взломщика почтового ящика по его поведению. В двух словах, взломщик будет себя вести не так, как владелец ящика: он может не удалять сообщения сразу по прочтении, как это делал хозяин, он будет по-другому ставить флажки сообщениям и даже по-своему двигать мышкой. Тогда такого злоумышленника можно идентифицировать

Неделя 2: Lesson Choices

На прошлой неделе мы познакомились с задачей и данными. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения модели прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа (например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе.

Неделя 3: Lesson Choices

Настало время перейти к построению моделей! Давайте начнем с построения так называемых бейзлайнов - построим несколько моделей, которые в дальнейшем будем использовать в качестве первого приближения для будущей модели. Часто для решения подобных задач используются линейные модели, а также ансамбли, например, случайный лес или градиентный бустинг

Неделя 4: Lesson Choices

Теперь, когда у вас уже получается делать неплохие решения задачи сентимент-анализа, пора научиться собирать для вашего алгоритма интерактивную демонстрацию в виде простенькой веб-странички, чтобы на него могли посмотреть в действии не только те, кто может запустить ipython notebook.

Python

Scipy

Numpy

Vowpal Wabbit

Создание актуального проекта в областях: электронной коммерции, социальных медиа, информационного поиска, бизнес-аналитики

Циклы, функции, генераторы

Чтение данных из файлов

Запись файлов, изменение файлов

Pandas. Data Frame, индексация и селекция

Визуализация данных в sklearn

Обучение моделей классификации

Компания, проводящая курс

Coursera (Курсера)

126 курсов по 395 темам

Проект в сфере массового онлайн-образования Coursera (Курсера) основан профессорами информатики Стэнфордского университета. Платформа...

Преподаватели курса

преподаватель в Московском физико-технический институт

Evgeny Sokolov is head of the unstructured data analysis group at Yandex Data Factory. He graduated...

преподаватель в Московском физико-технический институте

Evgeniy Riabenko, PhD, is a Research Scientist at Facebook, London. He has more than 10 years of...

Преподаватель на Кафедре алгоритмов и технологий программирования

Ни одного отзыва об этом курсе

Может, вы можете помочь? Вам будут благодарны многие пользователи. И мы тоже.

больше курсов

Похожие курсы компании

больше курсов

Другие курсы этих преподавателей