我有一些
HTML,我需要从页面中提取实际的书面文本.
到目前为止,我已经尝试使用Web浏览器并呈现页面,然后转到文档属性并抓取文本.这有效,但仅限于支持浏览器的地方(IE com对象).问题是我希望这也可以在wine下运行,所以我需要一个不使用IE COM的解决方案.
必须有一种编程方式来做到这一点是合理的.
解决方法
我不确定在Delphi中推荐解析HTML的方法是什么,但是如果是我的话,我会想要捆绑一份html2text(使用该名称的旧
C++ program或更新的
Python program)并生成一个打电话给其中一个.
您可以使用py2exe将Python html2text转换为可执行文件.两个html2text程序都是根据GPL许可的,但只要您将其可执行文件与您的应用程序捆绑在一起并根据GPL的限制使其源可用,那么您应该没问题.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。