python爬虫线程池创建并获取文件代码实例

时间：2019-12-18分类：Python作者：佚名

本实例主要进行线程池创建，多线程获取、存储视频文件

梨视频：利用线程池进行视频爬取

#爬取梨视频数据
import requests
import re
from lxml import etree
from multiprocessing.dummy import Pool
import random

# 定义获取视频数据方法
def getVideoData(url): # url为列表中的视频url
  return requests.get(url=url,headers=headers).content

# 定义存储数据方法
def saveVideo(data):
  fileName = str(random.randint(0,5000))+'.mp4'
  with open(fileName,'wb') as fp:
    fp.write(data)

# 爬取数据
#实例化一个线程池对象，开启5个线程池
pool = Pool(5)

url = 'https://www.pearvideo.com/category_1'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@id="listvideoList"]/ul/li')

video_url_list = [] # 存的是将要下载视频的url
for li in li_list:
  detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
  detail_page = requests.get(url=detail_url,headers=headers).text
  #因为视频连接不在标签汇中，而是一个js语句，所以用正则匹配
  video_url = re.findall('srcUrl="(.*?)",vdoUrl',detail_page,re.S)[0]
  video_url_list.append(video_url)

# map函数的应用：参数1：回调函数，参数2：列表；
#将列表中的参数赋值给回调函数的形参，让回调函数处理
video_data_list = pool.map(getVideoData,video_url_list)

pool.map(saveVideo,video_data_list)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

初窥 Python 的 import 机制

本文适合有 Python 基础的小伙伴进阶学习作者：pwwang 一、前言本文基于开源项目： https://github.com/pwwang/python-import-system 补充扩展讲解，希望能够让读者一文搞懂 Python 的 import 机制。 1.1 什么是 import

python在容器内克隆拉取git私有仓库

前言目前有个python应用需要在容器镜像内拉取git私有仓库的代码，一开始的想法是用GitPython，折腾一番ssh私钥和known_hosts问题后，发现还是在镜像中封装个git最省事，然后用subprocess调用系统命令，镜像体积也没有想象中增加特别多。准备ssh私钥和known_ho

[selenium]等待

前言当网络不稳定或应用页面加载有问题，可以设置等待，避免网络问题导致找不到元素等异常。隐式等待隐式等待设置的是最长等待时间，如果在规定时间内网页加载完成，则执行下一步，否则一直等到时间结束。隐式等待在driver的整个生命周期都有效，初始化的时候设置一次即可。 # 隐式等待10秒 drive

【python笔记】高阶函数map、filter、reduce

前言 map()、reduce()、filter()是python的三个高阶函数。所谓高阶函数，指的是将函数作为参数并返回函数作为结果的函数。下面代码的sing_ready只是一个简单高阶函数示例： def ready(name): return f"ready,{name}!"

【python笔记】使用zip函数迭代多个可迭代对象

入门使用 # 示例代码 warframe = ["saryn", "wisp", "volt"] counts = [len(n) for n in warframe] for i,j in zip(warframe,counts): pr

[python]为指定目录下的文件名批量加前缀

前言功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。示例代码 import argparse import os import sys import logging def gen_args(): """ 说明解析命令行参数 &

[python]常用配置读取方法

前言常见的应用配置方式有环境变量和配置文件，对于微服务应用，还会从配置中心加载配置，比如nacos、etcd等，有的应用还会把部分配置写在数据库中。此处主要记录从环境变量、.env文件、.ini文件、.yaml文件、.toml文件、.json文件读取配置。 ini文件 ini文件格式一般如下： [

[flask]统一API响应格式

前言在设计API返回内容时，通常需要与前端约定好API返回响应体内容的格式。这样方便前端进行数据反序列化时相应的解析处理，也方便其它服务调用。不同公司有不同的响应内容规范要求，这里以常见的JSON响应体为例： { "code": 200, "data": {

[selenium]点击元素出现的obscure问题

前言我们一般使用如下方式点击元素： elem = driver.find_element(...) elem.click() # 或者使用带等待条件的方式 elem = WebDriverWait(driver, 10).until(EC.xxx(...)) elem.click() 正常情况下，

[python]从环境变量和配置文件中获取配置参数

前言从环境变量和配置文件中获取配置参数，相关库： python-dotenv：第三方库，需要使用pip安装 configparser：标准库示例代码 test.ini [mysql] host = "192.168.0.10" port = 3306 user = &quot

[selenium]相对定位器

前言 Relative Locators，相对定位器，是Selenium 4引入的一个新的定位器，相对定位器根据源点元素去定位相对位置的其它元素。相对定位方法其实是基于JavaScript的 getBoundingClientRect() 而实现，简单的页面还行，复杂页面中可能会定位到需要相同类型

简介 The pytest framework makes it easy to write small, readable tests, and can scale to support complex functional testing for applications and librari

[python]使用faker库生成测试数据

简介 Faker库可用于随机生成测试用的虚假数据。可生成的数据参考底部的参考链接。安装： python -m pip install faker 快速入门 from faker import Faker # 实例化一个对象，本地化使用中国 fk - Faker(locale="zh_C

[python]使用标准库logging实现多进程安全的日志模块

前言原本应用的日志是全部输出到os的stdout，也就是控制台输出。因其它团队要求也要保留日志文件，便于他们用其他工具统一采集，另一方面还要保留控制台输出，便于出问题的时候自己直接看pod日志。具体需求如下：日志支持同时控制台输出和文件输出控制台的输出级别可以高点，比如WARNING，个人这边

[pandas]从多个文件中构建dataframe

按列从多个文件中构建假设有两个csv文件，列不相同，需要整合为一个dataframe，使用glob模块： from glob import glob import pandas as pd # glob会返回任意排序的文件名，所以需要sort排序 some_files = sorted(glob(

[python]使用diagrams绘制架构图

简介 diagrams是python的一个第三方库，用于实现使用代码绘制架构图。安装依赖于 Graphviz，安装diagrams之前需要先安装 Graphviz（下载压缩包后，将bin目录添加到系统环境变量Path里即可）。 python3 -m pip install diagrams 快速

[python]将多张图片合并为单个pdf文件

前言最近有个个人需求是要把多个图片文件合并为一个PDF文件，这样方便用PDF阅读器连续看，避免界面点一下，只会图片放大。（比如看漫画）主要思路是先把单张图片转换成单个PDF文件，然后把PDF文件进行合并。原先是用WPS的转换工具做的，但WPS每次只能批量转换30张，如果有大量图片文件，用WPS就

[selenium]取值元素文本属性样式

前言版本： python：3.9 selenium：4.1.5 获取元素文本 text = driver.find_element(by=By.XPATH, value="").text 获取元素属性值 attr1 = driver.find_element(by=By.XPA

[python]enumerate迭代

Python中有个内置的函数叫做 enumerate，可以在迭代时返回元素的索引。 # 示例代码01 warframe = ["saryn", "wisp", "volt"] for i,name in enumerate(warframe

[selenium]浏览器基本操作

前言版本： python：3.9 selenium：4.1.5 浏览器：firefox 创建浏览器对象 from selenium import webdriver driver = webdriver.Firefox(executable_path=r"C:\software\sele

分类导航

热门文章

最新文章