Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。
安装
- 命令:pip install beautifulsoup4
解析器
- 主要的解析器,以及它们的优缺点如下:
安装命令:
- pip install lxml
- pip install html5lib
requests
- requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
- 安装命令:pip install requests
- 推荐使用 response.content.deocde() 的方式获取响应的html页面
pandas
- 安装命令:pip install pandas
- 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
数据结构:
- Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
- Time- Series:以时间为索引的Series。
- DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
- Panel :三维的数组,可以理解为DataFrame的容器。
使用
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag
- NavigableString
- BeautifulSoup
- Comment
Tag:Tag 对象与XML或HTML原生文档中的tag相同,tag中最重要的属性: name和attributes
- 通过标签名获取:tag.name tag对应的type是<class ‘bs4.element.Tag‘>
- 通过属性获取:tag.attrs
- 获取标签属性:tag.get(‘属性名‘) 或 tag[‘属性名‘]
查找元素:
- find_all(class_="class") 返回的是多个标签
- find(class_="class") 返回一个标签
- select_one() 返回一个标签
- select() 返回的是多个标签
- soup = BeautifulSoup(backdata,‘html.parser‘) #转换为BeautifulSoup形式属性
- soup.find_all(‘标签名‘,attrs{‘属性名‘:‘属性值‘} ) #返回的是列表
- limitk 控制 find_all 返回的数量
- recursive=Flase 返回tag的直接子元素
demo
import sys
import io
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
from py_teldcore import sqlserver_db as db
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"
def get_soap():
try:
r = requests.get(url)
soap = bs(r.text,"lxml")
return soap
except Exception as e:
print(e)
return "Request Error"
def save2cvs(data,path):
result_weather = pd.DataFrame(data,columns=[‘date‘,‘tq‘,‘temp‘,‘wind‘])
result_weather.to_csv(path,encoding=‘gbk‘)
print(‘save weather sucess‘)
def save2mssql(data):
sql = "Insert into Weather(date,tq,temp,wind) values(%s,%s,%s)"
data_list = np.ndarray.tolist(data)
# sqlvalues = list()
# for data in data_list:
# sqlvalues.append(tuple(data))
sqlvalues = [tuple(iq) for iq in data_list]
try:
db.exec_sqlmany(sql,sqlvalues)
except Exception as e:
print(e)
def get_data():
soap = get_soap()
print(soap)
all_weather = soap.find("div",class_="wdetail").find("table").find_all("tr")
data = list()
for tr in all_weather[1:]:
td_li = tr.find_all("td")
for td in td_li:
s = td.get_text()
data.append("".join(s.split()))
res = np.array(data).reshape(-1,4)
return res
if __name__ == "__main__":
data = get_data()
save2mssql(data)
print("save2 sqlserver ok!")
参考资料
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。