Посоветуйте, если кто видел, программку для собирания информации с веб страниц.

Хочу я примерно следующего. Запускаешь экзешку, скармливаешь ей параметром командной строки адрес страницы в интернете (httр://....). Программа её скачивает, ищет в определённых местах (например, между двух заранее заданных слов) строки и пишет их в файл (в любом формате, например в csv).

Пример - задаёшь ей в параметрах страницу diary.ru, искать между "<div>" и "</div>". На выходе получаем файл, содержащий вырезку из тэгов DIV.

Подробности вариативны, но суть такая. Использовать подобную шнягу можно много для чего, так что наверняка кто-то такое уже писал. На крайняк можно написать скрипт на том же питоне, но интересно ж, вдруг есть уже готовое )))


Enkryptor:
вопрос уже не актуален, т.к. таки сделал на питоне, но ради любопыства пусть висит, может кто что ещё посоветует


@темы: Поиск ПО

Комментарии
17.09.2007 в 17:03

мне сказали, что ты меня все еще любишь
Если надо, могу по-быстрому слабать.
17.09.2007 в 17:23

Боже.

wget "$1" | egrep "<div>.*<\/div>"

Ну, то есть надо ещё минут пять потратить на то, чтобы вгет отдавал страницу в стдаут.
17.09.2007 в 17:27

всё, написал уже на питоне ))

ehlo_kitty, там на самом деле хитрее - в одной странице несколько полей надо хавать и совать в csv