Skip to content

Anexx341/MfuaCourseScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

Описание

Скрипт извлекает текст из js файлов, генерирующих слайды в презентации, приводя его в более-менее читабельный вид.

Язык: Python

Версия: 3.6+ Необходимые библиотеки: bs4

Использование:

  1. Установить Python 3.6+ и bs4
  2. Найти нужную тему.
  3. Пролистать презентацию. Нужно, чтобы были загружены все слайды.
  4. Сохранить страницу в папку со скриптом.
  5. Наслаждаться!
  6. Править ошибки...

Функционал:

Скрипт проходит по js файлам, выделяя заголовки в слайдах с помощью regular expressions, заменяя повторяющиеся заголовки в соседних слайдах, удаляя ненужные пробелы и переносы строк.

Текст по умолчанию сохраняется в "utf-8". Логи работы скрипта по умолчанию сохраняются в файл logs.

About

Собирает тему из курса с moi.mfua.ru в виде текста (:

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages