diff --git a/README.md b/README.md index 62ef398..686161f 100644 --- a/README.md +++ b/README.md @@ -1,15 +1,15 @@ # datatasks -Задачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации +Задачи для волонтеров/стажеров/всех желающих по работе с открытыми и большими данными, а также со всеми иными задачами, связанными с темами краудсорсинга, понятного языка и электронной архивации. -# Пример задачи, новые необходимо делать по этому шаблону +# Пример задачи. Новые необходимо делать по этому шаблону ## Цель -На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах. +На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и с описанием структур данных в DOC файлах. -Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных +Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных. ## Задача * написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON @@ -26,13 +26,13 @@ * реализация в виде программы командной строки или веб-приложения * возможность запуска на MacOSX * использовать скриптовые языки такие как Python, Perl, R и другие. -* преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных +* преобразовать данные из формата NESSTAR в форматы, удобные для работы, такие как CSV, и загрузить их в github и/или хаб открытых данных ## Оценки трудоёмкости -Ожидаемое время на задачу должна занять не более 1-3 дня (8-24 часа). +Ожидаемое время, затраченное на решение задачи, не должно превышать 1-3 дня (8-24 часа). ## Вспомогательные материалы: -* Хаб открытых данных - http://hubofdata.ru +* хаб открытых данных - http://hubofdata.ru * документация API CKAN - http://docs.ckan.org/en/latest/api/index.html * сайт управления Росстата - http://obdx.gks.ru/ * библиотеки разбора HTML кода. LXML - http://lxml.de/ и BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/