Давно уже хотел отпарсить все выпуски подкаста Радио-Т и получить какую-нибудь статистику. И вот, на выходных, от нечего делать решил воплотить это в жизнь.
Для этого был написан небольшой скриптик, который парсит RSS ленту, парсит оттуда информацию о подкасте (ссылку, описание, откуда качать), скачивает кажыдй выпуск, узнаем продолжительность и ложит это все в sqlite базу. Всего было скачано 368 подкастов (некоторые не получилось скачать) и нарисован 1 график по длительности подкаста в зависимости от года. Весь процесс скачки в 10 потоков занял порядка 3-х часов работы скрипта. Итак, теперь немного цифр:
- Самый длинный подкаст - выпуск 373 186 минут!
- Самый тяжелый - выпуск 216 112 мегабайт
И вот картинка, длительность выпусков по годам
Вся база, как и код качалки, выложены на гитхабе, надеюсь ничьи права не ущемил, если что - удалю.