AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

ScrapingSpider 网页爬虫

程序名称：ScrapingSpider

授权协议: 未知

操作系统: Windows

开发语言: C#

ScrapingSpider 介绍

ScrapingSpider 是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。

爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类，爬虫的爬取逻辑，与页面处理逻辑通过事件分离，两个关键事件为AddUrlEvent和DataReceivedEvent。

示例代码：

// 构造爬虫，需要3个参数：爬虫设置，实现了ILogger的日志记录器，上次未执行完的爬取链接
Spider spider = new Spider(new Settings(), new EmptyLogger(), null);

spider.AddUrlEvent += addUrlArgs =>
{
    // Url即将添加到队列的事件处理
};

spider.DataReceivedEvent += receivedArgs =>
{
    // 页面已经被抓取下来的事件，可在此处理页面，例如页面保存添加到数据库
};

// 开始爬取
spider.Crawl();

ScrapingSpider示例代码

具体的使用方法请参考ScrapingSpider项目的Program.cs类中的示例代码。
示例代码使用sqlServer数据库存储爬取信息，表结构与WebPage类对应，数据库连接字符串请参考App.config。
采用log4net作为日志记录组件。

Settings说明

Init Seeds: 初始URL地址，多个地址使用回车分开。
Regex Filter: 通过正则表达式过滤Url，多个正则使用回车隔开。
Keyword: 关键字，按照指定的关键字爬取，多个关键字使用回车分开。
Crawl Depth: 爬取深度，小于0表示不限
Escape Links: 要过滤的链接，如：.jpg|.rar|.exe
Keep Cookie: 抓取过程中是否保留Cookie
Lock Host: 是否锁定Host，锁定后，指抓取站点相关链接。
Limit Speed: 是否智能限速。
Threads: 线程数量，启用多个线程有利于提高爬取效率。
Timeout: 超时时间，以毫秒为单位。
User Agent: http协议UserAgent设置。

ScrapingSpider 官网

https://github.com/stanzhai/ScrapingSpider

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

网络爬虫工具

相关推荐

Pacman 是一个软件包管理器, 作为 ArchLinux 发行版的一部分.

作者：编程之家时间：2022-07-21

Smb4K 是KDE下的网络共享浏览器更多屏幕截图请看：http://developer.berlios.de/screenshots/?group_id=769

作者：编程之家时间：2022-07-21

Wine 开放源代码和用户驱动的

Wine （“Wine Is Not an Emulator” 的首字母缩写）是一个能够在多种 POSIX-compliant 操作系统（诸如

作者：编程之家时间：2022-07-21

虚拟桌面软件，可管理最多9个虚拟桌面，你可以用热键进行桌面切换

作者：编程之家时间：2022-07-21

UNetbootin USB安装模式硬盘安装模式

UNetbootin (Universal Netboot Installer)为一种跨平台工具软件，可以用来建立Live USB 系统，也可以加载各种系统工具，或安装各种Linux操作系统（Linux套件）和其他操作系统，不需使用安装光碟（自动透过网络下

作者：编程之家时间：2022-07-21

Cobbler 可以用来快速建立 Linux 网络安装环境，它已将 Linux 网络安装的技术门槛，从大专以上文化水平，成功降低到初中以下，连补鞋匠都能学会。

作者：编程之家时间：2022-07-21

Wubi是用于在Windows操作系统中安装Ubuntu的工具软件，Wubi中的W代表Windows Lubi和Wubi是兄弟项目，目的都是为了方便用户安装Ubuntu（也支持其他的Linux发行版，如Fedora），Lubi和Wubi两者工作的平台不同，但都具

作者：编程之家时间：2022-07-21

KCalendar 允许被嵌入到你的 Linux 桌面，并支持显示包括农历日期、24 节气、农历节日、农历生日、阳历生日、阳历节日、阳历纪念日、周节日等在内的各种内容，尤其适合咱中文用户使用。

作者：编程之家时间：2022-07-21

IPodWizard 让你可以定制你的 iPod 上的不同的图标,文本串和字体.该软件不仅可以直接地连接到你的 iPod

作者：编程之家时间：2022-07-21

QEMU 是一套由Fabrice Bellard所编写的模拟处理器的自由软件。它与Bochs，PearPC近似，但其具有某些后两者所不具备的特性，如高速度及跨平台的特性。经由kqemu这个开源的加速器，QEMU能模拟至接近真实电脑的速度。

作者：编程之家时间：2022-07-21