во-первых, вы должны понимать, что такое PDF. PDF-файлы предназначены для имитации печатной страницы, и они предназначены только в качестве выходного формата, а не входного. PDF-это в основном карта, содержащая точное местоположение символов (отдельных букв или знаков препинания и т. д.) или изображения. в большинстве случаев, PDF даже не хранит информацию о том, где один слово заканчивается, и начинается другое, гораздо меньше вещей, таких как мягкие перерывы против жестких перерывов для окончание абзаца.
(несколько последних PDF-файлов хранят некоторую информацию об этом материале, но это новая технология, и Вам повезет найти такие PDF-файлы. Даже если вы это сделали, ваш просмотрщик PDF может не знать об этом.)
во всяком случае, это до вашего программного обеспечения, чтобы реализовать какой-то "искусственный интеллект", чтобы извлечь только из местоположения отдельных символов, что такое слово, что абзац, и так далее. Различное програмное обеспечение идет сделать это более лучше чем другие, и это также будет зависеть от того, как был сделан PDF. В любом случае, вы должны никогда ожидать отличные результаты. Наличие выходного PDF-файла не то же самое, что исходный документ. Гораздо лучше попытаться получить это, если сможете.
стандартное решение вашей проблемы-использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не приведет к идеальным результатам.
бесплатный программное обеспечение, которое может быть использовано для извлечения текста из файлов PDF с сохранением форматирования, но, опять же, не следует ожидать идеального результата. См., например, calibre (который может конвертировать в формат RTF),pdftohtml / pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Существует также плагин импорта PDF для OpenOffice.
но, пожалуйста, не ожидайте совершенства с любой из этих результатов. Ты идешь против течения. PDF просто не является редактируемым форматом ввода.