Блог gigimon'а

Сбор статистики подкаста radio-t

Давно уже хотел отпарсить все выпуски подкаста Радио-Т и получить какую-нибудь статистику. И вот, на выходных, от нечего делать решил воплотить это в жизнь.

Для этого был написан небольшой скриптик, который парсит RSS ленту, парсит оттуда информацию о подкасте (ссылку, описание, откуда качать), скачивает кажыдй выпуск, узнаем продолжительность и ложит это все в sqlite базу. Всего было скачано 368 подкастов (некоторые не получилось скачать) и нарисован 1 график по длительности подкаста в зависимости от года. Весь процесс скачки в 10 потоков занял порядка 3-х часов работы скрипта. Итак, теперь немного цифр:

  1. Самый длинный подкаст - выпуск 373 186 минут!
  2. Самый тяжелый - выпуск 216 112 мегабайт

И вот картинка, длительность выпусков по годам

image0

Вся база, как и код качалки, выложены на гитхабе, надеюсь ничьи права не ущемил, если что - удалю.

2008 — 2014