这篇文章主要给大家介绍了关于Python爬虫运用正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
前言
我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。
目标:爬取Top100榜单上电影的封面图
Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。
下面是我做的步骤:
(2)分析图片在web上面的唯一属性,便于之后获取正确图片位置信息
(4)综合以上几个点,编写合适的正则表达式
1、python 标准库中re模块提供了正则表达式的全部功能,直接引入;requests模块是http库,爬虫常用库,而urllib.requests 则是最后用到写入文件的函数
import re import requests import urllib.request
2、先接收URL地址的HTML页面,然后转化为str形式(正则表达式是匹配字符串),第一个pattern1缩小范围,抓取目标部分,result1接收匹配的结果,这时候所有封面图地址就在里面了
response = requests.get(url) response = str(response.content) patttern1 = '
.+?' result1 = re.compile(pat).findall(response)
3、第二个正则,匹配图片的地址信息
pat2 = '
4、继续下一步,把每张图片命名好,需要正确的图片地址,避免重复
x = 1 for imgurl in name: imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg' imgurl = 'https://'+imgurl urllib.request.urlretrieve(imgurl,filename=imgname) x += 1
5、最后一步了,因为需要翻页爬取,所以加了一个循环,10页内容爬取下来
for i in range(0, 100, 10): url = 'http://maoyan.com/board/4?offset='+str(i) get_one_page(url, i) #定义函数,多次调用
相对来说,这是一个很简单的应用,也是自己学习之后的实践,在这个例子中,我是用到正则表达式来实现的,还有其他方法,而且可能简单,比如BeautifulSoup,XPath等方法,用在更加复杂的爬虫项目里面,需要的知识更多,方法更严谨,还需学习学习!
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对编程之家的支持。
上一篇:使用pyinstaller逆向.pyc文件下一篇:彻底解决pip下载pytorch慢的问题方法 热门搜索:
python正则表达式
的正则表达式
正则表达式的使用
正则表达式
相关文章
Python爬虫正则表达式常用符号和方法
2021-10-07阅读(4661)评论(0)推荐()python语言虽然诞生很久,但是也是最近几年才火起来的。在python语言中,我们经常会用到Python爬虫的正则表达式,下面小编通过本篇文章给大家介绍pyt...
Python爬虫运用正则表达式的方法和优缺点
2021-11-03阅读(4481)评论(0)推荐()这篇文章主要给大家介绍了关于Python爬虫运用正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要...
玩转Python爬虫之正则表达式
2021-11-06阅读(4383)评论(0)推荐()这篇文章主要介绍了Python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴...
Python爬虫之正则表达式基本用法实例分析
2021-11-06阅读(8565)评论(0)推荐()这篇文章主要介绍了Python爬虫之正则表达式基本用法,结合实例形式分析了Python正则表达式的基本概念、函数语法、相关使用方法及操作注意事项,需要的朋友可以...
零基础写Python爬虫之神器正则表达式
2021-09-20阅读(5338)评论(0)推荐()正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。其...
Python爬虫入门教程--正则表达式完全指南(五)
2021-10-11阅读(2235)评论(0)推荐()要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,下...
python3爬虫之入门基础和正则表达式
2021-10-07阅读(6299)评论(0)推荐()这篇文章主要介绍了python3爬虫之入门基础和正则表达式的相关资料,需要的朋友可以参考下
取消
提交评论
© 2021 编程之家
工信部备案号:琼ICP备2022000316号
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。