微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

利用node.js写一个爬取知乎妹纸图的小爬虫

前言

说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第18张得时候,突然想起。我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅。

原理

初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。

开始动手

大概知道原理之后我们就可以开干了

准备一个url

这个最简单了,去知乎随便一搜就是一大把,我们以

为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。

获取这个url的html内容,并且拿到当前页面noscript中的img链接

这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的,详细请移步

简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。

那么怎样才能获取这个帖子的html呢

使用nodejs的https模块

{ res.on('data',(data) => { sHtml += data; }); res.on('end',() => { callback.bind(_this,sHtml)(); }) }).on('error',(err) => { console.log(err); }); }

通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了

{ let imgurl = $(e).attr('src'); //取出对应的url imgData.push(imgurl); // 将url传入开始下载 _this.downloadImg(imgurl,_this.filePath,function (err) { console.log(imgurl + 'has be down'); }); }); console.log(imgData); }

有了图片的url,如何下载到本地呢?

我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。

rush:js;"> downloadImg (imgurl,filePath,callback) { let fileName = this.parseFileName(imgurl); request(imgurl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close',callback && callback); }

到这里就大功告成了,是不是很简单!!!已经将源码上传,欢迎大家下载查看。

gitHub地址:

本地下载地址:

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用node.js能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对编程之家的支持

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐