Шаг 2️⃣: Подготовка
- Описание датасета
- Изменение данных
Шаг 3️⃣: Исследование
- гипотезы
- графики
- таблицы
- корреляции
- выводы
Шаг 4️⃣: WebScrapping
COMPLETED
- Сформируйте с помощью веб-скрейпинга или найдите любой готовый набор данных, например, на портале Kaggle.com, содержащий не менее 200 наблюдений (строк) и не менее 10 переменных (столбцов). Файл должен содержать как метрические, так и категориальные переменные.
- Опишите датасет. Укажите количество строк и столбцов. По каждой переменной укажите:
- название и метки к переменной и к значениям, которые она принимает (если есть),
- что она измеряет или отражает, в каких единицах измерения,
- тип переменной: метрическая, категориальная (номинальная/порядковая/бинарная),
- тип данных в колонке (string, integer, пр.),
- число пустых значений.
- Измените тип данных в столбцах на более подходящий (если применимо).
- Рассчитайте новый столбец с данными на основе существующего(их).
- Перекодируйте любую метрическую переменную в категориальную. Обоснуйте выбранные интервалы/группы.
- Сформируйте срез по таблице и транспонируйте его.
- Отсортируйте значения по нескольким полям (многоуровневая сортировка) и выведите 20 первых строк таблицы, содержащих столбцы с переменными, по которым проводилась сортировка.
- Чётко и детально сформулируйте цель и задачи исследования.
- Сформулируйте не менее 10 исследовательских гипотез, которые будут проверены в ходе анализа данных. По каждой гипотезе уточните и обоснуйте выбор переменных и методов анализа данных, которые будут использованы для её проверки.
- Постройте не менее 5 графиков по имеющимся данным. У графиков должны быть подписи осей, названия и легенда. Каждый график должен отражать некоторые тенденции или взаимосвязи, наблюдаемые в данных. Под каждым графиком нужно написать комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате его построения.
- Постройте не менее 3-х сводных таблиц. Под каждой таблицей нужно написать комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате её построения.
- Рассчитайте описательные статистики, характеризующие центральную тенденцию и разброс значений относительно меры центральной тенденции по всей выборке и по отдельным группам наблюдений. Необходимо рассчитать все статистические показатели, которые разбирались на занятиях. Под каждым выводом напишите комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате расчётов.
- Посчитайте корреляции между числовыми данными и интерпретируйте полученные результаты. Сделайте выводы о специфике взаимосвязей между рассмотренными переменными.
- Сделайте выводы относительно того, какие исследовательские гипотезы нашли подтверждение в ходе исследования, а какие были отвергнуты и почему.
- Приведите доводы в пользу того, что цель и задачи исследования были реализованы. Сформулируйте общие выводы по результатам анализа данных. Какие выводы показались вам ожидаемыми, а какие неожиданными и почему?