когда я экспортирую файл из Word или TextEdit, я получаю очень раздутый HTML, полный сумасшедших style
теги на каждом абзаце, поэтому я не могу даже очистить его вручную.
единственная информация, которую я хочу сохранить,:
-
<h1>, <h2>, <h3>, <p>
теги. -
выравнивание (по центру, слева, справа)
-
ссылки, внешние и внутренние (по оглавлению)
-
<img>
теги