微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python爬虫运用正则表达式的方法和优缺点

这篇文章主要给大家介绍了关于Python爬虫运用正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧

前言

我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。

目标:爬取Top100榜单上电影的封面图

Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤:

(1)查看页面元素,找到包含图片的路径的代码段落

(2)分析图片在web上面的唯一属性,便于之后获取正确图片位置信息

(3)因为需要翻页,观察多个页面的URL变化

(4)综合以上几个点,编写合适的正则表达式

 1、python 标准库中re模块提供了正则表达式的全部功能,直接引入;requests模块是http库,爬虫常用库,而urllib.requests 则是最后用到写入文件函数

import re import requests import urllib.request

2、先接收URL地址的HTML页面,然后转化为str形式(正则表达式是匹配字符串),第一个pattern1缩小范围,抓取目标部分,result1接收匹配的结果,这时候所有封面图地址就在里面了

response = requests.get(url) response = str(response.content) patttern1 = '

.+?' result1 = re.compile(pat).findall(response)

3、第二个正则,匹配图片的地址信息

pat2 = '

 4、继续下一步,把每张图片命名好,需要正确的图片地址,避免重复 

x = 1 for imgurl in name: imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg' imgurl = 'https://'+imgurl urllib.request.urlretrieve(imgurl,filename=imgname) x += 1

 5、最后一步了,因为需要翻页爬取,所以加了一个循环,10页内容爬取下来

for i in range(0, 100, 10): url = 'http://maoyan.com/board/4?offset='+str(i) get_one_page(url, i) #定义函数,多次调用

相对来说,这是一个很简单的应用,也是自己学习之后的实践,在这个例子中,我是用到正则表达式来实现的,还有其他方法,而且可能简单,比如BeautifulSoup,XPath等方法,用在更加复杂的爬虫项目里面,需要的知识更多,方法更严谨,还需学习学习!

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对编程之家的支持

上一篇:使用pyinstaller逆向.pyc文件下一篇:彻底解决pip下载pytorch慢的问题方法 热门搜索

python正则表达式 

的正则表达式 

Python爬虫 

正则表达式的使用 

正则表达式 

相关文章

Python爬虫正则表达式常用符号和方法

2021-10-07阅读(4661)评论(0)推荐()

python语言虽然诞生很久,但是也是最近几年才火起来的。在python语言中,我们经常会用到Python爬虫的正则表达式,下面小编通过本篇文章给大家介绍pyt...

Python爬虫运用正则表达式的方法和优缺点

2021-11-03阅读(4481)评论(0)推荐()

这篇文章主要给大家介绍了关于Python爬虫运用正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要...

玩转Python爬虫之正则表达式

2021-11-06阅读(4383)评论(0)推荐()

这篇文章主要介绍了Python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴...

Python爬虫之正则表达式基本用法实例分析

2021-11-06阅读(8565)评论(0)推荐()

这篇文章主要介绍了Python爬虫之正则表达式基本用法,结合实例形式分析了Python正则表达式的基本概念、函数语法、相关使用方法及操作注意事项,需要的朋友可以...

零基础写Python爬虫之神器正则表达式

2021-09-20阅读(5338)评论(0)推荐()

正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。其...

Python爬虫入门教程--正则表达式完全指南(五)

2021-10-11阅读(2235)评论(0)推荐()

要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,下...

python3爬虫之入门基础和正则表达式

2021-10-07阅读(6299)评论(0)推荐()

这篇文章主要介绍了python3爬虫之入门基础和正则表达式的相关资料,需要的朋友可以参考下

取消

有人回复邮件通知

提交评论

© 2021 编程之家 

工信部备案号:琼ICP备2022000316号

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐