Акции школ
Войти

Поиск структуры в данных

Интенсивный курс по освоению инструментов поиска структуры в данных от МФТИ, E-legion и Яндекса. Возможность бесплатного участия. Длится 1 месяц. 3–5 часов занятий в неделю. Полезен специалистам Data Science. Преподаватели научат алгоритмам кластеризации данных, строить матричные разложения и решать задачи тематического моделирования, искать аномалии и визуализировать многомерные данные. Выдаётся сертификат по окончании курса.

Подробнее


Средний
Бесплатно

Компания: coursera (курсера)

Язык: ru

Длительность курса

Длительность курса

28 дней

Формат обучения

Формат обучения

Видеолекции, практические упражнения 3-5 часов в неделю

Обратная связь

Обратная связь

Общение с учащимися и преподавателями на форумах курса

Теория и практика

Теория и практика

52 видео (6.5 часов) 25 материалов для самостоятельного изучения 21 тест

Чему научитесь

Решать задачи машинного обучения по поиску внутренних закономерностях в данных

- Разобраться в задаче кластеризации, направленной на поиск групп близких объектов
- Выбирать хороший алгоритм кластеризации, не имея правильных ответов
- Понимать принципы понижения размерности и матричных разложений
- Визуализировать и искать аномалии
- Строить, применять и оценивать тематические модели

Перейти на страницу курса Запишись на курс
прямо сейчас!

в любое время 28 дней Кураторы: нет

О курсе

О курсе

в любое время 28 дней Кураторы: нет
Аналитикам данных

Кластеризация

Добро пожаловать на курс

Понижение размерности и матричные разложения

В предыдущем модуле мы обсуждали, как кластеризовать объекты, а в этом модуле займёмся признаками. Нередко возникают ситуации, в которых далеко не все признаки нужны для решения задачи — или же нужны все, но при этом их слишком много. В этом случае нужно перейти в новое признаковое пространство меньшей размерности. Для этого можно либо отбирать наиболее важные признаки, либо порождать новые на основе исходных — мы обсудим оба подхода. В частности, мы разберёмся с методом главных компонент, который используется в самых разных задачах машинного обучения. Затем мы перейдём к матричным разложениям — мы изучим несколько методов, позволяющих получить приближение исходной матрицы в виде произведения нескольких матриц меньшей размерности. Такая аппроксимация часто используется в задачах машинного обучения, например, для понижения размерности данных, восстановления пропущенных значений в матрицах и построения рекомендательных систем.

Визуализация и поиск аномалий

Добро пожаловать на третью неделю курса! В ней мы обсудим две задачи: обнаружение аномалий и визуализация данных. Обнаружение аномалий направлено на поиск объектов, которые являются особенными в некотором смысле. Например, это могут объекты с такими значениями признаков, которые далеки от имеющихся в обучающей выборке — вполне ожидаемо, что на таких объектах модель выдаст очень плохие прогнозы. Вы узнаете, как можно формально дать определение аномалий и с помощью каких методов можно решать задачу их поиска. Вторая задача, о которой мы поговорим — это визуализация, то есть отображение многомерной выборки в пространство размерности два или три. В теории визуализация близка к понижению размерности — но за счёт того, что нам нужно найти всего два или три признака, можно использовать очень сложные нелинейные методы.

Тематическое моделирование

Люди уже много веков сохраняют свои знания в виде книг, а крупнейшая на сегодняшний день коллекция информации — Интернет — состоит из огромного количества текстов. Тексты, по сути, являются наиболее популярным видом данных, и поэтому очень важно уметь искать в них закономерности. Тематическое моделирование — это способ семантического анализа коллекции текстовых документов. Тематическая модель позволяет для каждого документа найти темы, которые его описывают, и кроме того показывает, какие слова характеризуют ту или иную тему. Другими словами, мы находим более компактное представление большого набора текстов в виде нескольких тем. С математической точки зрения тематическая модель — это еще один вид матричного разложения, где в качестве исходной матрицы выступает матрица частот слов в документах. На четвертой неделе мы поговорим о том, где применяют тематические модели, какие они бывают, как их строить и как оценивать.

Python

знание алгоритмов кластеризации данных

пострение матричных разложений

решение задач тематического моделирования

понижение размерности данных

поиск аномалий

визуализирование многомерных данных

Навыки, которые вы получите

 
АНАЛИЗ И ОБРАБОТКА ДАННЫХ МАТРИЧНЫЕ РАЗЛОЖЕНИЯ ВЫЯВЛЕНИЕ АНОМАЛИЙ ДАННЫХ

Компания, проводящая курс

Coursera (Курсера)

126 курсов по 395 темам

Проект в сфере массового онлайн-образования Coursera (Курсера) основан профессорами информатики Стэнфордского университета. Платформа...

Преподаватели курса

преподаватель в Московском физико-технический институт

Evgeny Sokolov is head of the unstructured data analysis group at Yandex Data Factory. He graduated...

преподаватель в Московском физико-технический институте

Evgeniy Riabenko, PhD, is a Research Scientist at Facebook, London. He has more than 10 years of...

Преподаватель на Кафедре алгоритмов и технологий программирования

Доктор физико-математических наук

Доктор физико-математических наук, профессор РАН,...

Ни одного отзыва об этом курсе

Может, вы можете помочь? Вам будут благодарны многие пользователи. И мы тоже.

больше курсов

Похожие курсы компании

больше курсов

Другие курсы этих преподавателей