Эффективное извлечение нескольких данных из большого XML-файла

Question

Эффективное извлечение нескольких данных из большого XML-файла

Мне нужно извлечь содержимое нескольких полей из большого XML-файла. В настоящее время я делаю это, хотя сочетание xmlstarlet и скрипт Python (с использованием ElementTree). Идея в том, чтобы обрезать файл XML от бесполезных данных с xmlstarlet, а затем обработать файл меньшего размера с Python (с использованием Python непосредственно на файл не выполнимо - память и процессор были измельчается и некоторые файлы не разбирается). Это в основном работает, но:

это не эффективно
это не особенно гибкое
это довольно некрасиво (наименьшее из моих опасений, но беспокойство, тем не менее, с точки зрения обслуживания)

Я ищу советы о том, как лучше обработать такой случай (количество добытых данных составляет около 5% от исходного файла). Я открыт для чего-либо разумного (конкретный язык, возможно, демпинг XML-файла в БД, а затем извлечь то, что мне нужно, прежде чем демпинговать БД?, ...)

15

задан WoJ

16.11.2022 18:25

1 ответ

106	64	32	74	5	8	11	6	4	21

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

extract

xml

score 2 · Answer 1

вы используете ElementTree это iterparse? Она должна быть способна эффективно обрабатывать большие входы без разбора все дерево в памяти (обычно где колеса оторвались XML парсер).

вы можете найти множество вариантов использования и примеров на stackoverflow.

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%