用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

近年来，随着大数据、人工智能、机器学习等技术的兴起，Python 语言也越来越为人们所喜爱。但早在这些技术普及之前，Python 就一直担负着一个重要的工作：自动化抓取网页内容。

举个栗子，飞机票的价格每时每刻都在变化，甚至有些 app，你搜索的越多，价格就越贵。那不搜又不行啊，怎么样才能知道确切的价格呢？

这就是 Python 大显身手的时候啦~ 我们可以用Python写一段程序，让它自动帮你从网络上获取需要的数据——这就是所谓的“爬虫程序”——它能从你指定的一个或多个网站上读取并记录数据（比如从某个航班数据网站上读取指定日期和航线的机票信息），并根据数据进行一些自动操作，比如记录下最低价，并通知用户。进群：548377875 即可获取数十套PDF哦！

总结一下：

网页抓取是一种通过自动化程序从网页上获取页面内容的计算机软件技术。

我们这里说的“爬虫”，正式名称叫做“网页抓取”。按照维基百科的说法，网页抓取和大多数搜索引擎采用的网页索引的爬虫技术不同，网页抓取更侧重于将网络上的非结构化数据（常见的是HTML格式）转换成为能在一个中央数据库中储存和分析的结构化数据。“网页抓取也涉及到网络自动化，它利用计算机软件模拟了人的浏览。网页抓取的用途包括在线比价，联系人数据抓取，气象数据监测，网页变化检测，以及各类科研和Web数据集成等。”

用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

对于一般用户，我们主要关注的就是网页抓取。因此，以下提到的“爬虫”一律指网页抓取所用的自动化程序。

在今天的文章里，我们将带你从最基础的工具和库入手，详细了解一下一个爬虫程序的常用结构，爬取网络数据时应该遵循哪些规则，存在哪些陷阱；最后，我们还将解答一些常见的问题，比如反追踪，该做什么不该做什么，以及如何采用并行处理技术加速你的爬虫等等。

文中介绍的每项内容都会附上 Python 的实例代码，方便你可以直接上手试玩。同时，我们还会介绍几个非常有用的 Python 库。

本教程主要分为5个部分：

1. 常用的代码库和工具

2. 从最简单的例子开始

3. 小心陷阱

4. 一些规则

5. 利用并行加速爬虫程序

在开始之前，请记住：务必善待服务器，我们并不希望把人家网站弄挂了，是吧。

1. 常用的代码库和工具

总的来说，网页抓取并没有一个一成不变的解决方案，毕竟通常每个网站的数据都因为网站自身结构的不同而具有各不相同的特性。事实上，如果你希望从某个网站上抓取数据，你需要对这个网站的结构有足够的理解，针对这个网站自己写出对应的脚本，或将某个脚本设置到符合网站的结构，才可能成功。不过，你也无须重新发明轮子：已经有很多不同的代码库，能帮你完成绝大多数底层的工作，它们多多少少都能帮上你一点忙。

1.1“检查”选项

大部分时候，在实际爬取之前，你都需要熟悉网站的 HTML 代码。你可以简单地在你想查看的网页元素上点击右键，选择“检查”（Chrome）或者“查看元素”（火狐）

用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

之后，系统就会弹出一个调试工具区，高亮你刚选中的网页元素。以 Medium 网站的作者信息页为例：

用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

在页面上，这个被选中的元素包含了作者的姓名、标签及个人介绍。这个元素的 class 是 hero hero--profile u-flexTOP。然后在这个元素里还有几个子元素，其中显示作者姓名的是

秒，总的抓取时间就减少到了 17 分钟左右。

最后的文末知识点摘要：Python解惑之：整数比较

在 Python 中一切都是对象，毫无例外整数也是对象，对象之间比较是否相等可以用 ==，也可以用 is。 ==和 is操作的区别是：

is比较的是两个对象的id值是否相等，也就是比较俩对象是否为同一个实例对象，是否指向同一个内存地址。
==比较的是两个对象的内容是否相等，默认会调用对象的 __eq__()方法。

清楚 is和 ==的区别之后，对此也许你有可能会遇到下面的这些困惑，于是就有了这样一篇文章，试图把Python中一些隐晦的东西趴出来，希望对你有一定的帮助。我们先来看两段代码：

片段一：

>>> a = 256

>>> b = 256

>>> a == b

True

>>>

片段二：

>>> a = 256

>>> b = 256

>>> a is b

True

>>>

在交互式命令行执行上面两段代码，代码片段一中的 a==b返回 True很好理解，因为两个对象的值都是256，对于片段二， a is b也返回True，这说明a和b是指向同一个对象的，可以检查一下他们的id值是否相等：

>>> id(a)

8213296

>>> id(b)

8213296

>>>

结果证明他俩的确是同一个对象，指向的是同一个内存地址。那是不是所有的整数对象只要两个对象的值（内容）相等，它们就是同一个实例对象呢？换句话说，对于整数对象只要 ==返回 True， is操作也会返回 True吗？带着这个问题来看下面这两段代码：

片段一：

>>> a = 257

>>> b = 257

>>> a == b

True

>>>

片段二：

>>> a = 257

>>> b = 257

>>> a is b

False

>>>

对于257， a is b返回的竟然是False，结果可能在你的意料之中，也有可能出乎你的意料，但不管怎么，我们还是要刨根问底，找出问题的真相。

解惑一

出于对性能的考虑，Python内部做了很多的优化工作，对于整数对象，Python把一些频繁使用的整数对象缓存起来，保存到一个叫 small_ints的链表中，在Python的整个生命周期内，任何需要引用这些整数对象的地方，都不再重新创建新的对象，而是直接引用缓存中的对象。Python把这些可能频繁使用的整数对象规定在范围[-5,256]之间的小对象放在 small_ints中，但凡是需要用些小整数时，就从这里面取，不再去临时创建新的对象。因为257不再小整数范围内，因此尽管a和b的值是一样，但是他们在Python内部却是以两个独立的对象存在的，各自为政，互不干涉。

弄明白第一个问题后，我们继续在Python交互式命令行中写一个函数，再来看下面这段代码：

片段一：

>>> c = 257

>>> def foo():

... a = 257

... b = 257

... print a is b

... print a is c

...

>>> foo()

True

False

呃，什么情况，是的，你没看错，片段一中的这段代码 a、b 值都是257的情况下，出现了 a is b返回 True，而 a is c 返回的 False，a、b、c的值都为257，为什么会出现不同的结果呢？这对于刚刚好不容易建立起来的认知就被彻底否决了吗，那这段代码中究竟发生了什么？难道解惑一中的结论是错误的吗？

解惑二

A Python program is constructed from code blocks. A block is a piece of Python program text that is executed as a unit. The following are blocks: a module,a function body,and a class deFinition. Each command typed interactively is a block. A script file (a file given as standard input to the interpreter or specified as a command line argument to the interpreter) is a code block. A script command (a command specified on the interpreter command line with the ‘-c‘ option) is a code block. structure-of-a-program

为了弄清楚这个问题，我们有必要先理解程序代码块的概念。Python程序由代码块构成，代码块作为程序的一个最小基本单位来执行。一个模块文件、一个函数体、一个类、交互式命令中的单行代码都叫做一个代码块。在上面这段代码中，由两个代码块构成， c = 257作为一个代码块，函数 foo作为另外一个代码块。Python内部为了将性能进一步的提高，凡是在一个代码块中创建的整数对象，如果存在一个值与其相同的对象于该代码块中了，那么就直接引用，否则创建一个新的对象出来。Python出于对性能的考虑，但凡是不可变对象，在同一个代码块中的对象，只有是值相同的对象，就不会重复创建，而是直接引用已经存在的对象。因此，不仅是整数对象，还有字符串对象也遵循同样的原则。所以 a is b就理所当然的返回 True了，而 c和 a不在同一个代码块中，因此在Python内部创建了两个值都是257的对象。为了验证刚刚的结论，我们可以借用 dis模块从字节码的角度来看看这段代码。

用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

可以看出两个257都是从常量池的同一个位置 co_consts[1]获取的。

总结

一番长篇大论之后，得出两点结论：1、小整数对象[-5,256]是全局解释器范围内被重复使用，永远不会被GC回收。2、同一个代码块中的不可变对象，只要值是相等的就不会重复创建新的对象。似乎这些知识点对日常的工作一点忙也帮不上，因为你根本不会用 is来比较两个整数对象的值是否相等。那为什么还要拿出来讨论呢？嗯，程序员学知识，不应该浅尝辄止，要充分发挥死磕到底的精神。

用 Python 抓网页？所有疑问都总结在这了，你还有不懂的吗？

最后的文末知识点摘要：Python解惑之：整数比较

相关推荐