Что хорошие экстракторы соединения вне там?

Link extractor-так как я не знаю лучшего имени для него; утилита, которая может взять .htm файл, и дайте мне ссылки из него, не считая и так, просто прямые ссылки. Полезно для файлов, в которых у вас есть несколько HTML-ссылки в тексте и так далее ...

кто-нибудь знает какой-нибудь, случайно ?

5
задан quack quixote
источник

4 ответов

Firefox, с веб-разработчик АДД -, может сделать это. Откройте HTML-файл, откройте Панель инструментов веб-разработчика.

в раскрывающемся меню Информация выберите "Просмотреть информацию о ссылке". Откроется новая вкладка со списком всех ссылок в HTML файле.

enter image description here

на Расширение Специальных Возможностей Firefox также может отображать список ссылок в окнах, но это может быть излишним, как это делает тонны других функций, предназначенных для людей с ограниченными возможностями.

enter image description here

0
отвечен Snark 2011-08-11 06:37:03
источник

Мне нужна была быстрая-N-грязная версия этого времени или двух в прошлом. Мое решение обычно таково:

  • найдите и замените "http:// "на" \r\nhttp: / / " (переместите все http URL-адреса в их собственную строку
  • find / grep или иным образом фильтровать все строки, начинающиеся с " http://"(регулярное выражение что-то вроде"^http://")
  • сортировать отфильтрованные результаты, с возможностью удаления повторяющихся строк

Это мое быстрое и грязное решение, но я раньше не использовал для этого реальный инструмент. Хотя, я полагаю, что могу завернуть это в a .bat или AutoHotkey скрипт. Я просто не нуждался в этом достаточно часто.

2
отвечен JMD 2009-11-16 19:41:18
источник
href="(?<url>(((ht|f)tp(s?))\://)?((([a-zA-Z0-9_\-]{2,}\.)+[a-zA-Z]{2,})|((?:(?:25[0-5]|2[0-4]\d|[01]\d\d|\d?\d)(?(\.?\d)\.)){4}))(:[a-zA-Z0-9]+)?(/[a-zA-Z0-9\-\._\?\,\'/\\+&amp;%$#\=~]*)?)"

будет в regex, что могла бы добиться этого.

1
отвечен Rich Bradshaw 2009-11-16 19:48:21
источник

скачать Текст Гусеничном Ходу (это бесплатно) и установить его. Запустите его после завершения установки. В поле Имя файла/фильтр введите"*".htm *.формат HTML.* php " или какими бы ни были расширения HTML-файлов, которые вы анализируете. В окне Пуск перейдите в каталог, где находятся файлы. По умолчанию он также сканирует подкаталоги, если вы не хотите эту функциональность, то вы можете нажать на опции, а затем снимите флажок "сканировать подпапки". В поле Найти введите in:

<a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a>

убедитесь, что рядом с надписью "использовать регулярные выражения" стоит галочка. Затем нажмите кнопку Найти. Он покажет вам все ссылки, сгруппированные по файлам, в которых они находятся. Вы также можете нажать на извлечение, которое появится окно со всеми ссылками из всех файлов. Поскольку вы заявили, что хотите ссылки, я решил, что вы хотите весь

<a href="something.php">Something</a>

, так что вы можете увидеть, где ссылка и что описание. Если вы хотите только ссылку без тегов, измените регулярное выражение на

href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']

что вернет

href="something.php"

Дайте мне знать, если это ответ на ваш вопрос. TextCrawler является удивительным приложением, и так как это бесплатно его стоит попробовать.

1
отвечен Marcin 2009-11-16 21:39:07
источник

Другие вопросы extract html software-rec url