使用 Python 从 HTML 文件中提取文本

如何解决使用 Python 从 HTML 文件中提取文本

html2text是一个 Python 程序，在这方面做得很好。

解决方法

我想使用 Python 从 HTML 文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本相同。

我想要比使用可能在格式不佳的 HTML 上失败的正则表达式更强大的东西。我见过很多人推荐 Beautiful
Soup，但我在使用它时遇到了一些问题。一方面，它拾取了不需要的文本，例如 JavaScript 源代码。此外，它不解释 HTML 实体。例如，我希望 ‘
在 HTML 源代码中转换为文本中的撇号，就像我将浏览器内容粘贴到记事本中一样。

更新 html2text看起来很有希望。它正确处理 HTML 实体并忽略
JavaScript。但是，它并不完全生成纯文本。它会产生降价，然后必须将其转换为纯文本。它没有示例或文档，但代码看起来很干净。