微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Node.JS利用PhantomJs抓取网页入门教程

前言

当想用 nodejs 抓取一些网页,我第一反应想到的就是使用 http 模块,比如抓取百度首页:

rush:js;"> var http = require('http'); var req = http.request('http://www.baidu.com/',function (res) { res.setEncoding('utf8'); res.on('data',function (chunk) { //响应内容 console.log(chunk) }); }); req.end(function () { // console.log('连接关闭'); });

但是,这仅限于简单地抓取 html,有很大的局限性。

假如你想要的内容不在 html 里,而是 js 动态生成的,那 http 模块就不能满足你的需求了 ;

假如网页使 gbk 编码的,上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一个更强大,但使用起来也不麻烦的工具。

PhantomJs

用 PhantomJs 就可以解决上述问题。

PhantomJs 就是一个没有界面的浏览器。

安装

使用 cnpm 安装 PhantomJS 即可:

rush:bash;"> cnpm install phantomjs --save-dev

这里我没有选择全局安装,因为全局安装的话,别人使用我的源码的时候,不知道还有这么一个依赖,项目就跑不起来了。

如果你也选择局部安装,那么你需要在 package.json 里的 scripts 中加入一段 :

rush:plain;"> "phantomjs":"node_modules/.bin/phantomjs"

等下会用到这个的,到这里,安装算完成了。

代码

我们新建一个文件,名字随意,这里我新建一个 main.js :

rush:js;"> var webpage = require('webpage'); var page = webpage.create(); page.open('http://www.baidu.com/',function (status) { var data; if (status === 'fail') { console.log('open page fail!'); } else { console.log(page.content);//打印出HTML内容 } page.close();//关闭网页 phantom.exit();//退出phantomjs命令行 });

这里有个 webpage 模块,我们刚才明明没有这个模块,为什么能引用这个模块 ???

当然不能引用,假如我们使用 node main.js 来跑这段代码,是跑不起来的,应该这样运行这段代码 :

rush:plain;"> npm run phantomjs main.js

这里的 npm run phantomjs 对应的就是前面我们在 package.json 里加入的那段命令,很方便吧,几乎和 http 模块一样方便。

page.content 就是 html 代码了,这个 page 对象还有很多的属性,功能更强大。

到这里,你就已经算入门了,想知道更多可以去 phantomjs 官网看看文档了。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对编程之家的支持

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐