Как Скопировать текст из PDF без потери форматирования?

Question

Как Скопировать текст из PDF без потери форматирования?

когда я копирую текст из PDF-файла в текстовый редактор, он в конечном итоге искажается различными способами. Форматирование, как жирный и курсив теряются; мягкие разрывы строк в абзаце текста преобразуются в жесткие разрывы строк; тире, чтобы разбить слово на две строки сохраняются, даже если они не должны быть; и одинарные и двойные кавычки заменяются ? знаки.

В идеале, я хотел бы иметь возможность копировать текст из PDF и форматирование преобразуется в HTML-коды, " умные кавычки" преобразуется в "и", и разрывы строк выполняются правильно. Есть ли способ сделать это?

26

задан Colen

12.12.2022 0:44

pdf

9 ответов

99	59	30	69	5	8	10	6	4	20

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя

Email

Похожие вопросы про тегам:

pdf

score 50 · Answer 1

во-первых, вы должны понимать, что такое PDF. PDF-файлы предназначены для имитации печатной страницы, и они предназначены только в качестве выходного формата, а не входного. PDF-это в основном карта, содержащая точное местоположение символов (отдельных букв или знаков препинания и т. д.) или изображения. в большинстве случаев, PDF даже не хранит информацию о том, где один слово заканчивается, и начинается другое, гораздо меньше вещей, таких как мягкие перерывы против жестких перерывов для окончание абзаца.

(несколько последних PDF-файлов хранят некоторую информацию об этом материале, но это новая технология, и Вам повезет найти такие PDF-файлы. Даже если вы это сделали, ваш просмотрщик PDF может не знать об этом.)

во всяком случае, это до вашего программного обеспечения, чтобы реализовать какой-то "искусственный интеллект", чтобы извлечь только из местоположения отдельных символов, что такое слово, что абзац, и так далее. Различное програмное обеспечение идет сделать это более лучше чем другие, и это также будет зависеть от того, как был сделан PDF. В любом случае, вы должны никогда ожидать отличные результаты. Наличие выходного PDF-файла не то же самое, что исходный документ. Гораздо лучше попытаться получить это, если сможете.

стандартное решение вашей проблемы-использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не приведет к идеальным результатам.

бесплатный программное обеспечение, которое может быть использовано для извлечения текста из файлов PDF с сохранением форматирования, но, опять же, не следует ожидать идеального результата. См., например, calibre (который может конвертировать в формат RTF),pdftohtml / pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Существует также плагин импорта PDF для OpenOffice.

но, пожалуйста, не ожидайте совершенства с любой из этих результатов. Ты идешь против течения. PDF просто не является редактируемым форматом ввода.

score 8 · Answer 2

другой вариант, чтобы загрузить и начать использовать бесплатный просмотрщик pdf, Foxit (его хорошо). Затем вы можете "сохранить как" и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда я преобразован в Foxit.

score 5 · Answer 3

есть очень хороший онлайн-инструмент под названием Sej-da. Его сделки с передовой манипуляции PDF. Нет программного обеспечения для загрузки. Как это new онлайн инструмент в настоящее время все еще находится в бета-версии. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

краткий видео обзор функций sejda было сделано 14 ноября 2012 года по версии 3 его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

score 4 · Answer 4

для этого можно использовать Adobe Acrobat Pro.

для таблиц: с Acrobat 9/10 появилась функция выбора таблиц. С Acrobat X вы можете просто нажать Сохранить как > электронная таблица > Excel. Он даже объединяет страницы в одну длинную таблицу. Удивительная особенность.

для текста: аналогичная функция существует для экспорта в MS Word. Сохранить Как > Word > Word Doc.

источники:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Я просто сделал это и он работал как шарм.

score 4 · Answer 5

откройте PDF-файл в браузере (Google chrome и firefox протестированы), затем скопируйте туда текст.

score 0 · Answer 6

Foxit переключается между отображением исходного файла как обычного PDF или как текста нажатием Ctrl + 6 (С немного возиться с уровнем масштабирования текстового режима theres не так много прыгать в положении вперед и назад между чтением и копированием)

score 0 · Answer 7

Я нашел это очень полезно ( Удалить Разрывы Строк):

вот полезный трюк, чтобы быстро решить эту проблему без необходимости удалять все разрывы строк вручную. В принципе, все, что он делает, автоматически заменяет все нежелательные разрывы строк одним пробелом, заставляя весь текст работать вместе в одном абзаце:

1 - Скопировать текст из PDF.

2 - вставить в новый документ Word.

3 - нажмите "Изменить" потом "replace"

4 - Убедитесь, что вы находитесь в поле "найти что"

5 - нажмите "больше", затем"специальный"

6 - Выберите "Знак абзаца" (вверху списка)

7 - Нажмите в поле" заменить на"

8 - нажмите пробел один раз

9 - нажмите кнопку "Заменить все"

10 - нажмите "ok", затем закройте окно" найти и заменить".

score -1 · Answer 8

вы можете скопировать из Adobe reader в MS Excel и форматировать (таблица) так, как вы хотите, а затем скопировать и вставить из Excel. Это решение отлично работает. Вам не нужно покупать дорогую профессиональную копию adobe.

score -1 · Answer 9

Я пытался сохранить текст и формат pdf, который был организован в виде таблицы. В Acrobat Professional я понял, что есть опция "Сохранить как", которая позволяет сохранять как документ excel. Это хорошо работало для моих нужд. Я также заметил, что есть опция Сохранить как документ Word. Но я не пробовал этого делать.

Apple	$173,24	+0,81%
Amazon	$114,49	-1,94%
Microsoft	$325,19	+3,61%
Google	$123,44	+2,11%
Netflix	$364,74	-0,03%
Intel	$27,45	-5,34%
Facebook	$254,49	+2,11%
Tesla	$185,54	+1,44%
Tencent	$322,40	-3,01%