всякий раз, когда я копирую форматированный текст из файла PDF, который отформатирован, чтобы иметь разрывы строк (или возврат каретки), мне нужно найти способ удалить эти разрывы строк без удаления формата абзаца.
чтобы сделать это, мне нужно использовать регулярное выражение (Regex), чтобы удалить только разрывы строк, которым не предшествует точка.
Так, например, если строка текста имеет разрыв строки сразу после точки, это, очевидно, почти всегда законный разрыв строки, который начнется новый абзац. Если строка текста имеет разрыв строки в середине слова или после слова без точки, это просто часть плохого форматирования, от которого мне нужно избавиться.
моя проблема в том, что я не знаю, как использовать регулярное выражение, чтобы удалить только теги ^p в word или CRLF или разрывы строк в любом формате при условии, что он пропускает их после периода.