Мне нужно получить целую карту веб-сайта в формате:
- http://example.org/
- http://example.org/product/
- http://example.org/service/
- http://example.org/about/
- http://example.org/product/viewproduct/
Мне нужно, чтобы он был связан (без файла или грубой силы dir), например :
Домашняя страница -> парсим извлечь все ссылки -> исследовать их -> получить ссылки, ...
и мне также нужна возможность определить, является ли страница "шаблоном", чтобы не извлекать все"дочерние страницы". Например, если найдены следующие ссылки :
- http://example.org/product/viewproduct?id=1
- http://example.org/product/viewproduct?id=2
- http://example.org/product/viewproduct?id=3
Мне нужно получить только один раз http://example.org/product/viewproduct
Я просмотрел HTTtracks, wget (с опцией spider), но пока ничего окончательного.
soft / tool должен быть загружаемым, и я предпочитаю, если он работает на Linux. Она может быть написана на любом языке.
спасибо