技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

利用node.js爬取指定排名网站的JS引用库详解

时间：2019-01-03分类：Node.js作者：编程之家

前言

本文给大家介绍的爬虫将从网站爬取排名前几的网站，具体前几名可以具体设置，并分别爬取他们的主页，检查是否引用特定库。下面话不多说了，来一起看看详细的介绍：

所用到的node主要模块

express 不用多说
request http模块
cheerio 运行在服务器端的jQuery
node-inspector node调试模块
node-dev 修改文件后自动重启app

关于调试Node

在任意一个文件夹，执行node-inspector，通过打开特定页面，在页面上进行调试，然后运行app，使用node-dev app.js来自动重启应用。

所碰到的问题

1. request请求多个页面

由于请求是异步执行的，和分别返回3个页面的数据，这里只爬取了50个网站，一个页面有20个，所以有3页，通过循环里套request请求，来实现。

通过添加请求头可以实现基本的反爬虫

处理数据的方法都写在analyData()里面，造成后面的数据重复存储了，想了很久，才想到一个解决方法，后面会写到是怎么解决的。

rush:js;"> for (var i = 1; i < len+1; i++) { (function(i){ var options = { url: 'http://www.alexa.cn/siterank/' + i,headers: { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/59.0.3071.115 Safari/537.36' } }; request(options,function (err,response,body) { analyData(body,rank); }) })(i) }

2. 多层回调

仔细观察代码，你会发现，处理数据的方法使用了如下的多层回调，也可以不使用回调，写在一个函数内部；因为，每层都要使用上一层的数据，造成了这样的写法。

rush:js;"> function f1(data1){ f2(data1); }

function f2(data2){
f3(data2);
}

function f3(data3){
f4(data4);
}

3. 正则获取JS库

由于获取页面库，首先需要获取到script的src属性，然后通过正则来实现字符串匹配。

rush:xhtml;">

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

nodejs nodejs nodejs nodejs爬取动态页面 nodejs爬取数据网站网站

上一篇：NodeJS使用七牛云存储上传文件的方下一篇：深入解析nodejs HTTP服务

相关推荐

基于nodejs的ssh2怎么实现自动化部署

这篇文章主要介绍“基于nodejs的ssh2怎么实现自动化部署”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“基于nodejs...

作者：编程之家时间：2023-05-29

nodejs怎么实现目录不存在自动创建

本文小编为大家详细介绍“nodejs怎么实现目录不存在自动创建”，内容详细，步骤清晰，细节处理妥当，希望这篇“nodejs怎么实现目录不存在自动创建”文章能帮助大...

作者：编程之家时间：2023-05-29

如何把nodejs数据传到前端

这篇“如何把nodejs数据传到前端”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这...

作者：编程之家时间：2023-05-29

nodejs如何实现定时删除文件

本文小编为大家详细介绍“nodejs如何实现定时删除文件”，内容详细，步骤清晰，细节处理妥当，希望这篇“nodejs如何实现定时删除文件”文章能帮助大家解决疑惑...

作者：编程之家时间：2023-05-29

nodejs安装模块卡住不动怎么解决

这篇文章主要讲解了“nodejs安装模块卡住不动怎么解决”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来...

作者：编程之家时间：2023-05-29

如何检测nodejs有没有安装成功

今天小编给大家分享一下如何检测nodejs有没有安装成功的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文...

作者：编程之家时间：2023-05-29

怎么安装Node.js的旧版本

本篇内容主要讲解“怎么安装Node.js的旧版本”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎...

作者：编程之家时间：2023-05-29

node中的Express框架怎么安装使用

这篇“node中的Express框架怎么安装使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家...

作者：编程之家时间：2023-05-12

nodejs如何实现搜索引擎

这篇文章主要介绍“nodejs如何实现搜索引擎”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“nodejs如何实现搜索引擎...

作者：编程之家时间：2023-05-12

nodejs中间层如何设置

这篇文章主要介绍“nodejs中间层如何设置”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“nodejs中间层如何设置”文...

作者：编程之家时间：2023-05-12

小编推荐

苹果市值2025年有望达4万亿美元