微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python爬虫实现伪球迷速成

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,下面小编给大家带来了Python爬虫实现(伪)球迷速成功能,一起看看吧

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!

给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!

抓包获取虎扑论坛相关帖子内容,逐条显示

先来观察下网页,打开论坛首页,选择国际足球

然后往下拉,找到世界杯相关内容

 

这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包

注意箭头指向的那几个地方!

这就是刚才浏览的新闻所在的json包,来看看具体数据是什么

ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容

再进入具体新闻页面看看

世界杯快到了,看我用Python爬虫实现(伪)球迷速成! 

所有的文本内容,都在这标签下的

标签内,我们可以用xpath直接取div下的所有文本内容!这里就不一 一说明了,直接上代码,并录个小的gif图片给大家看看效果

#Q群542110741 # -*- coding:utf-8 -*- import requests from lxml import etree header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0', 'Host':'soccer.hupu.com', 'Referer':'https://soccer.hupu.com/'} i = 0 while 1: #构建循环页面翻页 url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page=' i += 1 #获取json数据,一页20个 html = requests.get(url+str(i),headers=header).json()['result'] for info in html: time_r = info['time']#发布时间 title = info['title']#标题 url_r = info['url']#新闻链接 origin = info['origin']#来源 print(title) print('发布时间:',time_r,' '*5,'来自:',origin) head = header head['Host'] = 'voice.hupu.com'#更改header中Host参数 html_r = requests.get(url_r,headers=head)#获取新闻详情 html_r.encoding = 'utf-8'#编码格式指定 #获取div下的所有文本 datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip() print('n'+'内容:'+'n'*2,datas,'n') #可由用户手动退出循环 if input('任意键继续,“q”退出') in ['q', 'Q']: exit()

总结

以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

上一篇:python通过get,post方式发送http请求和接收http响应的方法下一篇:PyQt5 matplotlib画图不刷新的解决方案 热门搜索

Python爬虫 

Python爬虫库 

Python爬虫学习 

爬虫实例 

爬虫实战 

相关文章

Python爬虫实现(伪)球迷速成

2021-10-13阅读(3296)评论(0)推荐()

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,下面小编给大家带来了Python爬虫实现(伪)球迷速成功能,一起看看...

Python反爬虫伪装浏览器进行爬虫

2021-10-17阅读(6092)评论(0)推荐()

这篇文章主要介绍了Python反爬虫伪装浏览器进行爬虫,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

Python爬虫UA伪装爬取的实例讲解

2021-11-04阅读(6858)评论(0)推荐()

在本篇文章里小编给大家整理的是一篇关于Python爬虫UA伪装爬取的实例讲解内容,有需要的朋友们可以学习参考下。

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

2021-11-09阅读(4387)评论(0)推荐()

今天小编就为大家分享一篇Python实现爬虫设置代理IP和伪装成浏览器的方法分享,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

python网络爬虫之如何伪装逃过反爬虫程序的方法

2021-11-04阅读(9362)评论(0)推荐()

本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

快速一键生成Python爬虫请求头

2021-10-07阅读(8994)评论(0)推荐()

这篇文章主要介绍了如何快速一键生成Python爬虫请求头,帮助大家更好的理解和学习使用Python爬虫,感兴趣的朋友可以了解下

Python爬虫实例详解

2021-10-05阅读(10511)评论(0)推荐()

这篇文章主要为大家详细介绍了Python爬虫实例,包括爬虫技术架构,组成爬虫的关键模块,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

取消

有人回复邮件通知

提交评论

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐