微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

轻轻学爬虫—scrapy框架巧用1

轻轻学爬虫—scrapy框架巧用1

何为爬虫,爬虫就是顺着网线获取指定网站的关键数据。

如何通过网线判断这是张三家还是李四家呢?这就引出来概念ip或者域名,比如我们在地址栏上敲入www.baidu.com我们进入了百度家里。每个地址代表了一个家庭,一个家庭又有不同的东西。比如,我进入京东家里,他们家就有很多的商品,进入微博家里,他们家就有好多文章。当我们需要某些数据时候,我们就去借鉴一下。

爬虫就是拿别人的数据,我们要做一个善意的爬虫。本身我们借鉴别人的数据就不厚道了,如果在借鉴时候影响了别人的正常工作就不好了。我们的原则就是以别人最小的成本去拿到我们的数据。控制好我们爬虫的速度。

爬虫大致分为以下几步:

在这里插入图片描述

Python中我们可以使用requests模块一步步完成,这样显然违背Python的原则,人生苦短,我用Python。Python更多的时候只需要添砖加瓦就可以了,简单的补一补就可以使用。这里我们使用Python中的爬虫框架scrapy。

scrapy还是要使用经典图

在这里插入图片描述

1234步骤可以理解为顺序,看个热闹就行,估计初学的你也看不明白。这个图我想放在开篇,当你掌握后面的内容之后,回头再看这个图相信你会有不一样的理解。

scrapy有完整的功能模块,不需要我们写太多的东西,只需要补充就够了。

本节是scrapy的介绍和讲解,不会过多的介绍框架里面的内容,本节课重点就是安装scrapy。在mac和linux中安装不是什么难事。使用

pip install scrapy

但是windows安装你会遇到各种各样的问题。安装也是学习的过程,小伙伴们先尝试着安装,如果安装中出现什么问题和私信或者留言评论

码字不易,欢迎大家在评论区留言,收藏。或者加入群聊一起进步学习。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐