HTML解析器 - 编程之家

HTML解析器HTML解析器专题提供HTML解析器的最新资讯内容，帮你更好的了解HTML解析器。

libhtml 是一个微型的 C 程序库，用来解析、序列化和生成 HTML 4.01-strict 和 XHTML 1.0-strict 文档。

node-htmlparser 是一个 JavaScript 的 HTML 文档解析器。示例代码： var htmlparser = require(\"htmlparser\");

htmlsprite 是一个 Flash 用来解析 HTML 文档的开发包。示例代码： import com.redurban.HTMLSprite

wiseparser 是一个 PHP 语言用来解析 HTML 文档的开发包。示例代码： require_once(‘treebuilder.php’);

解析HTML和CSS，并且能输出成image，PDF等格式. Flying Saucer is an XML/CSS renderer, which means it takes XML files as input,

cl-who 是common lisp 生成html的库安装方式可以通过quicklisp安装 (ql:quickload :cl-who)

gohtml 是一个很小的 Java 类库，用来解析 HTML 文档，目前尚未公开发布版本。

简介 Jumony是一套基于.NET Framework 3.5的HTML分析处理引擎，使得可以在C#中方便简单的操纵HTML文档，同时也可以充当Web的页面引擎使用。

scrape.py 是一个 Python 模块用来从网页上提取内容的工具，可用它轻松实现页面抓取、链接点击、表单提交等操作，自动支持

Gumbo 是 Google 的一款用C语言实现的HTML5解析库，无需任何外部依赖。目标及特征：

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于jsoup 库进行 HTML 解析。

go-html-transform是使用Go语言实现的一个HTML解析器，并且有HTML5的支持，使用这个解析器可以让我们使用CSS选择器来操作DOM节点。

Harser 是一个简单的 Python HTML 解析器。安装：pip install harser 示例代码： >>> from harser import Harser

Context Parser 是一款功能强劲的 HTML5 内容解析器，它能解析 HTML5 Web 页面。浏览器通常用 JavaScript 和 CSS

Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API，这使得从远程页面上选择特定元素变得简单。

goquery是一个使用go语言写成的HTML解析库，可以让你像jQuery那样的方式来操作DOM文档。下面是示例：

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。

PHTX (Peter’s HTML Table eXtractor) 是一个小的 Unix 命令工具用来从 HTML 文件中抽取表格数据并存放到 CSV

pup 是一个命令行的 HTML 内容解析工具，直接从 stdin 读入内容，并将解析结果输出到 stdout，用户可以使用 CSS 选择器进行内容的过滤。

Myhtml是一款快速C/C++ HTML 5解析器软件，线程实现就像一个没有外界依赖性的纯C99库。

分类导航