技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Python3实现抓取javascript动态生成的html网页功能示例

时间：2019-10-03分类：Python作者：编程之家

本文实例讲述了python3实现抓取javascript动态生成的html网页功能。分享给大家供大家参考，具体如下：

用urllib等抓取网页，只能读取网页的静态源文件，而抓不到由javascript生成的内容。

究其原因，是因为urllib是瞬时抓取，它不会等javascript的加载延迟，所以页面中由javascript生成的内容，urllib读取不到。

那由javascript生成的内容就真的没有办法读取了吗？非也！

这里要介绍一个python库：selenium，本文使用的版本是 2.44.0

先安装：

pip install -U selenium

下面用三个例子来说明其用法：

【例0】

打开一个Firefox浏览器
载入所给URL地址的页面

from selenium import webdriver
browser = webdriver.Firefox()
browser.get('http://www.baidu.com/')

【例1】

打开一个Firefox浏览器
载入百度主页
搜索 “seleniumhq”
关闭浏览器

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
browser = webdriver.Firefox()
browser.get('http://www.baidu.com')
assert '百度' in browser.title
elem = browser.find_element_by_name('p') # Find the search Box
elem.send_keys('seleniumhq' + Keys.RETURN) # 模拟按键
browser.quit()

【例2】

Selenium WebDriver 常用于网络程序的测试。下面是一个使用Python标准库 unittest 的例子:

import unittest
class BaiduTestCase(unittest.TestCase):
  def setUp(self):
    self.browser = webdriver.Firefox()
    self.addCleanup(self.browser.quit)
  def testPageTitle(self):
    self.browser.get('http://www.baidu.com')
    self.assertIn('百度',self.browser.title)
if __name__ == '__main__':
  unittest.main(verbosity=2)

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python进程与线程操作技巧总结》、《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Python中使用haystack实现django全下一篇：python基础while循环及if判断的实例

相关推荐

空气阻力对乒乓球运动轨迹的影响

在前一篇博客中我们介绍了加侧旋的乒乓球弧圈技术的模拟，本文我们关注的是高吊弧圈和削球弧线这两种轨迹原理，并且引入了空气阻力对乒乓球运动轨迹的影响。通过对空气阻力和马格努斯力的模拟，我们可以看到不同的弧线曲线。对于乒乓球爱好者而言，可以通过这种模拟的结果，来制定比赛中有可能用到的策略，比如低长弧圈球、

作者：DECHIN 时间：2024-09-25

解决python报错：ModuleNotFoundError: No module named '_sysconfigdata_x86_64_conda_linux_gnu'

在近期conda的版本更新中，有可能会删除路径下的_sysconfigdata_x86_64_conda_linux_gnu模块相关备份文件，而在其他的一些软件的运行过程中有可能依赖于这个备份文件，这就会导致运行过程报错模块无法找到的问题。最终我们通过重新复制备份这个文件解决了该问题。

作者：DECHIN 时间：2024-09-25

python3之lambda表达式

本文主要展示了一些lambda表达式的使用示例，通过这些示例，我们可以了解到lambda表达式的常用语法以及使用的场景。在一般情况下，其最大的意义还是简化了python中函数的定义方式，在可读性上远不如def所定义的函数。

作者：DECHIN 时间：2024-09-25

使用jax加速Hamming Distance的计算

本文通过对比Jax和Numpy计算Normalized Hamming Distance的过程来对比了Jax所实现的Numpy的GPU版本所带来的加速效果。实际上在维度比较小的时候，Numpy还是有非常轻量级的优势，此时GPU的加速效果并没有很好的体现出来。但是在规模较大的输入场景下，GPU的并行加

作者：DECHIN 时间：2024-09-25

用CUDA写出比Numpy更快的规约求和函数

我们知道GPU加速在可并行化程度比较高的算法中，能够发挥出比较大的作用，展示出明显的加速效果，而对于一些线程之间存在依赖这样的场景就不一定能够起到很大的加速作用。CUDA官方针对此类问题，提供了atomic的内置函数解决方案，包含有求和、求最大值等常用函数。而这些函数的特点就在于，线程与线程之间需要

作者：DECHIN 时间：2024-09-25

超过Numpy的速度有多难？试试Numba的GPU加速

Numpy这个库在Python编程中非常的常用，不仅在性能上补足了Python语言的一些固有缺陷，还具有无与伦比的强大生态。但是即使都是使用Python，Numpy也未必就达到了性能的巅峰，对于我们自己日常中使用到的一些计算的场景，针对性的使用CUDA的功能来进行GPU的优化，是可以达到比Numpy

作者：DECHIN 时间：2024-09-25

使用autopep8自动规范化python3代码

本文主要通过介绍两个python中常用的编码规范格式化工具：autopep8和black来讲解python编程中一些快速处理编程规范问题的方法，同时也说明了这些软件的局限性。编程规范也是人为制定的，事实上在实际项目中，也不是所有的编程规范都需要满足，这就需要项目的组织者或者领导者有自己的基本判断。结

作者：DECHIN 时间：2024-09-25

乒乓球之弧圈理论

本文通过对马格努斯力的模拟，来理解乒乓球的弧圈原理。并且在这个理论基础之上对比了几种场景下的乒乓球轨迹，比如乒乓球的运动速度，或者日常所说的撞击对乒乓球轨迹的影响。还有乒乓球的角速度，也就是日常我们所说的摩擦对乒乓球轨迹的影响。还有一个在乒乓球界堪称变革的小球改大球对乒乓球这项运动可能带来的影响。由

作者：DECHIN 时间：2024-09-25

在pyqt5中展示pyecharts生成的图像

本文通过一个实际的散点图案例，展示了如何使用pyqt5嵌套一个pyecharts图层的方法，通过这个技巧，可以在pyqt5的框架中也实现精美的数据可视化的功能模块。

作者：DECHIN 时间：2024-09-25

python并行计算之mpi4py的安装与基本使用

在这篇文章中，我们并没有介绍非常多的MPI的应用，其实在普通的并行或者分布式任务中，掌握了各个进程的任务处理过程以及进程间的通信方法就足够了。总体来说，MPI是一个非常通用也非常高效的并行计算软件。有了这些专业的并行化任务调度软件，我们就可以专注于专业任务的代码和算法上，而不需要过多的去关注并行任务

作者：DECHIN 时间：2024-09-25

小编推荐

苹果市值2025年有望达4万亿美元