微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将HTML / PDF转换为开放文档格式

如何解决将HTML / PDF转换为开放文档格式

我正在尝试将HTML页面转换为开放文档格式(odt)。

我尝试了什么?

  1. Pandoc:pandoc -f html“ https:///blog.html” -o output_1.odt

    问题:此html页面需要在浏览器中启用JS,因此输出文档包含 请在浏览器中启用JavaScript以使用XXXX。

  2. libreoffice:libreoffice --headless --convert-to odt“ https:///blog.html”

    问题:这里的问题也仍然存在,它需要启用JS才能呈现页面

  3. 因此,基于以上所述,我认为我们需要一个无头浏览器才能首先对其进行渲染。 我尝试在无头浏览器中渲染后保存html,然后使用pandoc转换为odt。

    问题:输出文档中缺少样式和图像。文字部分完整无缺。

  4. 我使用无头浏览器的puppeteer使用nodejs创建了PDF,这是完美的,

    问题:现在我无法将PDF转换为ODT格式。

PS: 答:该网页包含带有标签和src作为外部URL的嵌入式图像。

B。技术堆栈是java / nodejs

我还能尝试获得所需的ODT格式吗?

预先感谢

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。