微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python3制作捧腹网段子页爬虫

网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子

0x01

春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片

科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬点笑话比较有益于身心健康。

0x02

在我们撸起袖子开始搞之前,先来普及点理论知识。

简单地说,我们要把网页上特定位置的内容,扒拉下来,具体怎么扒拉,我们得先分析这个网页,看那块内容是我们需要的。比如,这次爬取的是捧腹网上的笑话,打开 捧腹网段子页我们可以看到一大堆笑话,我们的目的就是获取这些内容。看完回来冷静一下,你这样一直笑,我们没办法写代码。在 chrome 中,我们打开 审查元素 然后一级一级的展开 HTML 标签,或者点击那个小鼠标,定位我们所需要的元素。

最后可以发现

中的内容就是我们所需要的笑话,在看第二条笑话,也是这样。于是乎,我们就可以把这个网页中所有的 找到,然后把里边的内容提取出来,就完成了。0x03

好了,现在我们知道我们的目的了,就可以撸起袖子开始干了。这里我用的 python3,关于 python2 和 python3 的选用,大家可以自行决定,功能都可以实现,只是有些许不同。但还是建议用 python3

我们要扒拉下我们需要的内容,首先我们得把这个网页扒拉下来,怎么扒拉呢,这里我们要用到一个库,叫 urllib,我们用这个库提供的方法,来获取整个网页。

首先,我们导入 urllib

复制代码 代码如下:

 import urllib.request as request

然后,我们就可以使用 request 来获取网页了,

复制代码 代码如下:

def getHTML(url):

return request.urlopen(url).read()

人生苦短,我用 python,一行代码,下载网页,你说,还有什么理由不用 python。

下载完网页后,我们就得解析这个网页了来获取我们所需要的元素。为了解析元素,我们需要使用另外一个工具,叫做 Beautiful Soup,使用它,可以快速解析 HTML 和 XML并获取我们所需要的元素。

复制代码 代码如下:

soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html"))

用 BeautifulSoup 来解析网页也就一句话,但当你运行代码的时候,会出现这么一个警告,提示要指定一个解析器,不然,可能会在其他平台或者系统上报错。

复制代码 代码如下:

/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/bs4/__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.The code that caused this warning is on line 64 of the file joke.py. To get rid of this warning, change code that looks like this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

上一篇python3简单实现微信爬虫下一篇:Python中用Spark模块的使用教程 热门搜索

python3爬虫 

制作爬虫 

网页爬虫 

页面爬虫 

网络爬虫 

相关文章

python3制作捧腹网段子页爬虫

2021-10-13阅读(9466)评论(0)推荐()

网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看...

python3爬虫学习之应对网站反爬虫机制的方法分析

2021-11-04阅读(7761)评论(0)推荐()

这篇文章主要介绍了python3爬虫学习之应对网站反爬虫机制的方法,结合实例形式分析了python3模拟浏览器运行来应对反爬虫机制的相关操作技巧,需要的朋友可以...

python3爬虫学习入门教程

2021-10-11阅读(8024)评论(0)推荐()

这篇文章主要介绍了python3爬虫学习入门,简单介绍了python3爬虫的功能、原理及使用爬虫爬取知乎首页相关操作技巧,需要的朋友可以参考下

python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

2021-10-13阅读(10629)评论(0)推荐()

这篇文章主要介绍了python3实现爬虫爬取赶集网列表功能,结合实例形式分析了python3基于request和BeautifulSoup模块的网站页面爬取相关...

Python爬虫实例爬取网站搞笑段子

2021-11-04阅读(3764)评论(0)推荐()

这篇文章主要介绍了Python爬虫实例爬取网站搞笑段子,具有一定参考价值,看完了代码不妨看看段子,希望大家每天开心。

Python爬虫爬取网页数据并解析数据

2021-11-03阅读(2964)评论(0)推荐()

这篇文章主要介绍了Python爬虫如何爬取网页数据并解析数据,帮助大家更好的利用爬虫分析网页,感兴趣的朋友可以了解下

java正则表达式简单使用和网页爬虫的制作代码

2021-10-12阅读(6364)评论(0)推荐()

java正则表达式简单使用和网页爬虫的制作代码,需要的朋友可以参考一下

取消

有人回复邮件通知

提交评论

© 2021 编程之家 

工信部备案号:琼ICP备2022000316号

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐