还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,下面小编给大家带来了Python爬虫实现(伪)球迷速成功能,一起看看吧
还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!
给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!
先来观察下网页,打开论坛首页,选择国际足球
然后往下拉,找到世界杯相关内容
这里就是我们的目标了,所有相关的新闻都会在这里显示,用F12打开“开发者工具”然后往下浏览看看数据包
注意箭头指向的那几个地方!
这就是刚才浏览的新闻所在的json包,来看看具体数据是什么
ok,标题、地址、发布时间包括来源都已经出现了!我们可以直接抓取json数据然后取出相关内容!
再进入具体新闻页面看看
世界杯快到了,看我用Python爬虫实现(伪)球迷速成!
标签内,我们可以用xpath直接取div下的所有文本内容!这里就不一 一说明了,直接上代码,并录个小的gif图片给大家看看效果
#Q群542110741 # -*- coding:utf-8 -*- import requests from lxml import etree header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0', 'Host':'soccer.hupu.com', 'Referer':'https://soccer.hupu.com/'} i = 0 while 1: #构建循环页面翻页 url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page=' i += 1 #获取json数据,一页20个 html = requests.get(url+str(i),headers=header).json()['result'] for info in html: time_r = info['time']#发布时间 title = info['title']#标题 url_r = info['url']#新闻链接 origin = info['origin']#来源 print(title) print('发布时间:',time_r,' '*5,'来自:',origin) head = header head['Host'] = 'voice.hupu.com'#更改header中Host参数 html_r = requests.get(url_r,headers=head)#获取新闻详情 html_r.encoding = 'utf-8'#编码格式指定 #获取div下的所有文本 datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip() print('n'+'内容:'+'n'*2,datas,'n') #可由用户手动退出循环 if input('任意键继续,“q”退出') in ['q', 'Q']: exit()
总结
以上所述是小编给大家介绍的Python爬虫实现(伪)球迷速成,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!
上一篇:python通过get,post方式发送http请求和接收http响应的方法下一篇:PyQt5 matplotlib画图不刷新的解决方案 热门搜索:
Python爬虫学习
爬虫实例
爬虫实战
相关文章
Python爬虫实现(伪)球迷速成
2021-10-13阅读(3296)评论(0)推荐()还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,下面小编给大家带来了Python爬虫实现(伪)球迷速成功能,一起看看...
Python反爬虫伪装浏览器进行爬虫
2021-10-17阅读(6092)评论(0)推荐()这篇文章主要介绍了Python反爬虫伪装浏览器进行爬虫,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Python爬虫UA伪装爬取的实例讲解
2021-11-04阅读(6858)评论(0)推荐()在本篇文章里小编给大家整理的是一篇关于Python爬虫UA伪装爬取的实例讲解内容,有需要的朋友们可以学习参考下。
Python实现爬虫设置代理IP和伪装成浏览器的方法分享
2021-11-09阅读(4387)评论(0)推荐()今天小编就为大家分享一篇Python实现爬虫设置代理IP和伪装成浏览器的方法分享,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
python网络爬虫之如何伪装逃过反爬虫程序的方法
2021-11-04阅读(9362)评论(0)推荐()本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
快速一键生成Python爬虫请求头
2021-10-07阅读(8994)评论(0)推荐()这篇文章主要介绍了如何快速一键生成Python爬虫请求头,帮助大家更好的理解和学习使用Python爬虫,感兴趣的朋友可以了解下
Python爬虫实例详解
2021-10-05阅读(10511)评论(0)推荐()这篇文章主要为大家详细介绍了Python爬虫实例,包括爬虫技术架构,组成爬虫的关键模块,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
取消
提交评论
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。