Как разобрать веб-страницу в текстовый файл или файл Excel?

Question

Как разобрать веб-страницу в текстовый файл или файл Excel?

Я пытаюсь найти способ захватить 4-5 строк текста с нескольких страниц одного и того же сайта, информация всегда находится в одном и том же месте на веб-странице. Как я могу получить эту информацию в текст или, предпочтительно, файл Excel?

See image for example

29

задан karel

30.01.2023 5:35 Количество просмотров материала

3365

3 ответа

107	64	32	75	5	9	11	6	4	21

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

microsoft-excel

parsing

webpage

score 1 · Answer 1

традиционно вы загружаете HTML страницы и ищете некоторую константу, которая непосредственно предшествует вашим данным. к сожалению, Ваш вопрос не имеет универсального ответа, так как каждый сайт отличается. Я написал сценарии на python, Bash и даже C#, которые тянут страницу вниз, ищут ее тег, который я хочу, и извлекают его.

взгляните на источник страниц и найдите свой peice данных (firebug очень полезен для этого) и определите начальные и конечные разделители для содержимое, которое требуется извлечь.

вот некоторые скрипты, написанные для выскабливания XKCD.com http://forums.xkcd.com/viewtopic.php?f=11&t=63037

score 1 · Answer 2

вы можете попробовать очистить страницу с помощью Javascript (в виде скрипта Greasemonkey / Userscript / расширения / букмарклета/...). Букмарклет означает, что вы должны вручную перейти на эту страницу и выполнить ее. Другие методы позволяют передавать данные непосредственно в базу данных (локальное хранилище при использовании привилегированного расширения или веб-сервера).

написание кода Javascript требует знаний в этой области, вы будете искать функции DOM, такие как document.getElementById,getElementsByClassName и querySelector или XPath. Поскольку Etsy уже использует jQuery, вы также можете использовать jQuery для получения данных.

в качестве альтернативы соскабливанию рассмотрите возможность использования API, если он доступен. Быстрый поиск показал следующие страницы, которые могут (или не могут) помочь вы:

score 0 · Answer 3

это во многом зависит от того, в какой области находится ваш опыт, но в прошлом для такого рода операций я обычно использую PHP простой HTML DOM парсер. Он очень прост в использовании, а документация весьма информативна.

синтаксис запроса DOM очень похож на jQuery, если вы использовали его раньше.

вы можете использовать более подробном find('div[id=foo]'); и find('div[class=bar]'); но также можно использовать более компактный jQuery-подобный метод определения селекторов с find('#foo'); и find('.bar');.

Я лично использую Chrome Inspector для идентификации элементов, которые я хочу запросить, чтобы найти их идентификатор, класс, тег и т.д.

имейте в виду, что существует небольшая вероятность того, что вы можете столкнуться с ошибками памяти в зависимости от размера файла, который вы собираетесь загрузить в память, но если страница похожа на ту, что на скриншоте выше, у вас не должно быть проблем.

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%