Как Скопировать текст из PDF без потери форматирования?

когда я копирую текст из PDF-файла в текстовый редактор, он в конечном итоге искажается различными способами. Форматирование, как жирный и курсив теряются; мягкие разрывы строк в абзаце текста преобразуются в жесткие разрывы строк; тире, чтобы разбить слово на две строки сохраняются, даже если они не должны быть; и одинарные и двойные кавычки заменяются ? знаки.

В идеале, я хотел бы иметь возможность копировать текст из PDF и форматирование преобразуется в HTML-коды, " умные кавычки" преобразуется в "и", и разрывы строк выполняются правильно. Есть ли способ сделать это?

26
задан Colen
12.12.2022 0:44 Количество просмотров материала 2999
Распечатать страницу

9 ответов

во-первых, вы должны понимать, что такое PDF. PDF-файлы предназначены для имитации печатной страницы, и они предназначены только в качестве выходного формата, а не входного. PDF-это в основном карта, содержащая точное местоположение символов (отдельных букв или знаков препинания и т. д.) или изображения. в большинстве случаев, PDF даже не хранит информацию о том, где один слово заканчивается, и начинается другое, гораздо меньше вещей, таких как мягкие перерывы против жестких перерывов для окончание абзаца.

(несколько последних PDF-файлов хранят некоторую информацию об этом материале, но это новая технология, и Вам повезет найти такие PDF-файлы. Даже если вы это сделали, ваш просмотрщик PDF может не знать об этом.)

во всяком случае, это до вашего программного обеспечения, чтобы реализовать какой-то "искусственный интеллект", чтобы извлечь только из местоположения отдельных символов, что такое слово, что абзац, и так далее. Различное програмное обеспечение идет сделать это более лучше чем другие, и это также будет зависеть от того, как был сделан PDF. В любом случае, вы должны никогда ожидать отличные результаты. Наличие выходного PDF-файла не то же самое, что исходный документ. Гораздо лучше попытаться получить это, если сможете.

стандартное решение вашей проблемы-использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не приведет к идеальным результатам.

бесплатный программное обеспечение, которое может быть использовано для извлечения текста из файлов PDF с сохранением форматирования, но, опять же, не следует ожидать идеального результата. См., например, calibre (который может конвертировать в формат RTF),pdftohtml / pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Существует также плагин импорта PDF для OpenOffice.

но, пожалуйста, не ожидайте совершенства с любой из этих результатов. Ты идешь против течения. PDF просто не является редактируемым форматом ввода.

50
отвечен frabjous 2022-12-13 08:32

другой вариант, чтобы загрузить и начать использовать бесплатный просмотрщик pdf, Foxit (его хорошо). Затем вы можете "сохранить как" и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда я преобразован в Foxit.

8
отвечен chris 2022-12-13 10:49

есть очень хороший онлайн-инструмент под названием Sej-da. Его сделки с передовой манипуляции PDF. Нет программного обеспечения для загрузки. Как это new онлайн инструмент в настоящее время все еще находится в бета-версии. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

краткий видео обзор функций sejda было сделано 14 ноября 2012 года по версии 3 его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

5
отвечен Simon 2022-12-13 13:06

для этого можно использовать Adobe Acrobat Pro.

для таблиц: с Acrobat 9/10 появилась функция выбора таблиц. С Acrobat X вы можете просто нажать Сохранить как > электронная таблица > Excel. Он даже объединяет страницы в одну длинную таблицу. Удивительная особенность.

для текста: аналогичная функция существует для экспорта в MS Word. Сохранить Как > Word > Word Doc.

источники:

4
отвечен user156787 2022-12-13 15:23

откройте PDF-файл в браузере (Google chrome и firefox протестированы), затем скопируйте туда текст.

4
отвечен harsini 2022-12-13 17:40

Foxit переключается между отображением исходного файла как обычного PDF или как текста нажатием Ctrl + 6 (С немного возиться с уровнем масштабирования текстового режима theres не так много прыгать в положении вперед и назад между чтением и копированием)

0
отвечен Stoatly 2022-12-13 19:57

Я нашел это очень полезно ( Удалить Разрывы Строк):

вот полезный трюк, чтобы быстро решить эту проблему без необходимости удалять все разрывы строк вручную. В принципе, все, что он делает, автоматически заменяет все нежелательные разрывы строк одним пробелом, заставляя весь текст работать вместе в одном абзаце:

1 - Скопировать текст из PDF.

2 - вставить в новый документ Word.

3 - нажмите "Изменить" потом "replace"

4 - Убедитесь, что вы находитесь в поле "найти что"

5 - нажмите "больше", затем"специальный"

6 - Выберите "Знак абзаца" (вверху списка)

7 - Нажмите в поле" заменить на"

8 - нажмите пробел один раз

9 - нажмите кнопку "Заменить все"

10 - нажмите "ok", затем закройте окно" найти и заменить".

0
отвечен sky-light 2022-12-13 22:14

вы можете скопировать из Adobe reader в MS Excel и форматировать (таблица) так, как вы хотите, а затем скопировать и вставить из Excel. Это решение отлично работает. Вам не нужно покупать дорогую профессиональную копию adobe.

-1
отвечен Murali Sastry 2022-12-14 00:31

Я пытался сохранить текст и формат pdf, который был организован в виде таблицы. В Acrobat Professional я понял, что есть опция "Сохранить как", которая позволяет сохранять как документ excel. Это хорошо работало для моих нужд. Я также заметил, что есть опция Сохранить как документ Word. Но я не пробовал этого делать.

-1
отвечен Douglas Thompson 2022-12-14 02:48

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх