Skip to content

AlexeyShalaev/GooglePlayDataset

Repository files navigation

📔 Jupyter Notebook Research Project


Авторы:

План

Шаг 1️⃣: Сбор данных

Google Play Store Apps

Шаг 2️⃣: Подготовка

  • Описание датасета
  • Изменение данных

Шаг 3️⃣: Исследование

  • гипотезы
  • графики
  • таблицы
  • корреляции
  • выводы

Шаг 4️⃣: WebScrapping

TASKS

COMPLETED

  1. Сформируйте с помощью веб-скрейпинга или найдите любой готовый набор данных, например, на портале Kaggle.com, содержащий не менее 200 наблюдений (строк) и не менее 10 переменных (столбцов). Файл должен содержать как метрические, так и категориальные переменные.
  2. Опишите датасет. Укажите количество строк и столбцов. По каждой переменной укажите:
    • название и метки к переменной и к значениям, которые она принимает (если есть),
    • что она измеряет или отражает, в каких единицах измерения,
    • тип переменной: метрическая, категориальная (номинальная/порядковая/бинарная),
    • тип данных в колонке (string, integer, пр.),
    • число пустых значений.
  3. Измените тип данных в столбцах на более подходящий (если применимо).
  4. Рассчитайте новый столбец с данными на основе существующего(их).
  5. Перекодируйте любую метрическую переменную в категориальную. Обоснуйте выбранные интервалы/группы.
  6. Сформируйте срез по таблице и транспонируйте его.
  7. Отсортируйте значения по нескольким полям (многоуровневая сортировка) и выведите 20 первых строк таблицы, содержащих столбцы с переменными, по которым проводилась сортировка.
  8. Чётко и детально сформулируйте цель и задачи исследования.
  9. Сформулируйте не менее 10 исследовательских гипотез, которые будут проверены в ходе анализа данных. По каждой гипотезе уточните и обоснуйте выбор переменных и методов анализа данных, которые будут использованы для её проверки.
  10. Постройте не менее 5 графиков по имеющимся данным. У графиков должны быть подписи осей, названия и легенда. Каждый график должен отражать некоторые тенденции или взаимосвязи, наблюдаемые в данных. Под каждым графиком нужно написать комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате его построения.
  11. Постройте не менее 3-х сводных таблиц. Под каждой таблицей нужно написать комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате её построения.
  12. Рассчитайте описательные статистики, характеризующие центральную тенденцию и разброс значений относительно меры центральной тенденции по всей выборке и по отдельным группам наблюдений. Необходимо рассчитать все статистические показатели, которые разбирались на занятиях. Под каждым выводом напишите комментарий, описывающий тенденции или взаимосвязи, которые удалось выявить в результате расчётов.
  13. Посчитайте корреляции между числовыми данными и интерпретируйте полученные результаты. Сделайте выводы о специфике взаимосвязей между рассмотренными переменными.
  14. Сделайте выводы относительно того, какие исследовательские гипотезы нашли подтверждение в ходе исследования, а какие были отвергнуты и почему.
  15. Приведите доводы в пользу того, что цель и задачи исследования были реализованы. Сформулируйте общие выводы по результатам анализа данных. Какие выводы показались вам ожидаемыми, а какие неожиданными и почему?

About

Исследование Google Play и Kinopoisk

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published