1、Python基础
Python是一种面向对象、解释型自由语言,语法简洁清晰、基础代码库丰富,覆盖网络、文件、GUI、数据库、文本等领域。并能和其他主流语言沟通协助制作。Python主要分为cpython、Jpython、IronPython、PyPy等。解释型语言可移植行好,但是运行速度不及编译型语言,其次解释型语言源码无法像编译型那样编译成二进制串加密。
1.1.2 Linux
安装python3.x.x,通过pip安装需要的第三方库。
1.2 Python库
Python为开发者提供丰富代码库,开发者从不会从零开始开发,基础功能基本已经有现成的成熟的框架或库支持,因此大幅度的提升开发者的开发效率和提高代码健壮性。
Python很容易学!小编有弄一个交流,互问互答,资源共享的交流学习基地,如果你也是Python的学习者或者大牛都欢迎你来!㪊:548+377+875!一起 学习共同进步!
深圳房价飞涨,但也阻挡不了祖国各地人民来深圳买房的欲望。深圳房价动辄几百万,程序猿这种动物想在深圳安居压力山大。所以买房必然是人生一重大决定,必须货比三家。当前各种房产中介,各种开发商,各种楼盘。信息多到我们无法掌握。因此程序猿就需要利用专业的优势通过一些方式获取有效数据,分析筛选最优秀的房源。
2.1.1 Python教你买房维度指标体系
Python教你买房首先我们需要确定我们购房时最关注的维度体系和指标体系。关注主要维度和关键指标体系如图所示:
Python教你买房,分为数据爬虫和大数据分析。首先通过爬虫方式获取到深圳房产交易网成功交易量和交易价格并得出深圳房价的趋势,得到最合适的购房时间段,确认最佳的上车时间。然后爬取链家网数据并按用户关注维度深度分析帅选得出适宜的房子,做好一切上车的准备。
2.1.2 Python教你买房框架
Python教你买房框架,主要分为5块,分别为主程序模块、代理IP模块、地图服务模块、可视化服务模块、目标页面模块等。主程序为首先启动代理IP模块,抓取带来IP并通过测试可用代理IP存入到代理池,定时线程定时清洗带来并把无效的带来IP剔除出代理池,代理IP模块并提供外部API获取代理IP。主程序通过代理服务访问并抓取外部网页的有效信息并在主程序模块理解习HTML并写入到本地文件。主程序会调用地图服务获取经纬度信息,并绘制热力图等。同时间可视化模块定时读取文件并生成可视化图形报表供业务侧分析使用。
1、主服务模块
主程块通过Api提供给前端用户登录和获取用户交互输入,通过参数解析获取得到用户的需求组装请求,获取代理IP转发请求到目标地址获取目标数据,返回数据通过html解析得到有效数据写入到文件地图服务和可视化服务生产友好的图形报表,辅佐得出Python教你买房的数据支撑。
2、IP代理服务模块
#!/usr/bin/env python3# -*- coding: utf-8 -*-# function:定时抓取免费代理IP,并检查可用性,可用proxy存入数据库供业务方调用获取# Author:elideng# date: 2017-11-11import requestsfrom bs4 import BeautifulSoupimport tracebackimport pymysqlimport threadingimport time''' *@Function【爬取IpProxy】 *@Request: 请求 [in] * param1 int iReqGetNum: 请求获取代理量 *@Response:响应 [out] * param1 int iFinalGetNum: 最终获取代理量 *@Return:返回值 int : 0(成功) 其它失败 '''def GrabIpProxy(): arrIpList = [] User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0' header = {} header['User-Agent'] = User_Agent #url = 'http://www.xicidaili.com/nn/1' url = 'http://www.baidu.com' res = requests.get(url,headers=header) if res.status_code == 200: info = {} soup = BeautifulSoup(res.text,'lxml') ips = soup.findAll('tr') for x in range(1,len(ips)): ip = ips[x] tds = ip.findAll("td") ip_port = tds[1].contents[0] + ":" + tds[2].contents[0] arrIpList.append(ip_port) #后续加上代理可用校验,非可用踢出代理池 #print(ip_port) #计算列表量 return arrIpList''' *@Function【测试ipProxy是否可用】 *@Request: 请求 [in] * param1 String desUrl: 测试目的地址 * param2 String ipProxy:代理IP端口 * param3 int iTimeout:超时时间 * param4 String feature:目的地址特征 *@Response:响应 [out] * param1 int iFinalGetNum: 最终获取代理量 *@Return:返回值 :成功返回代理Proxy 失败返回空 '''def checkProxyIP(desUrl,ipProxy,iTimeout=3,feature=""): #确认带来iPaddress 2秒内能否 #desUrl = 'http://www.baidu.com' header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'} proxies = {'http': 'http://' + ipProxy} #组装代理 res = None # 声明 exmsg = None try: #res = requests.get(url=desUrl,headers=header,proxies=proxies,timeout=iTimeout) res = requests.get(desUrl,timeout=iTimeout) # 代理方式请求,防止反爬虫 soup = BeautifulSoup(res.text,'lxml') #feature="" #print(soup.findAll(feature)) except: exmsg = '* ' + traceback.format_exc() if exmsg: return -1 if res.status_code != 200: return -1 if res.text.find(feature) < 0: return -1 return 0#更新代理池IPdef updateProxy(ipProxy,vaildFlag="N"): sMysqL = pyMysqL.connect(host='127.0.0.1',user='root',passwd='elideng',db='test') cursor = sMysqL.cursor() try: cursor.execute('update t_proxy set FvaildFlag="%s" where Fproxy="%s" limit 1' % (ipProxy,vaildFlag)) sMysqL.commit() #提交执行 except: sMysqL.rollback() sMysqL.close() return 0#新增代理池IPdef insertProxy(ipProxy,vaildFlag="Y"): sMysqL = pyMysqL.connect(host='127.0.0.1',db='test') cursor = sMysqL.cursor() try: cursor.execute('insert into t_proxy values("%s","%s",Now(),Now())' % (ipProxy,vaildFlag)) sMysqL.commit() #提交执行 except: sMysqL.rollback() sMysqL.close() return 0#获取Proxydef getProxy(proxyNum): sMysqL = pyMysqL.connect(host='127.0.0.1',db='test') cursor = sMysqL.cursor() proxyList=[] try: if proxyNum == -1: cursor.execute('select Fproxy from t_proxy where FvaildFlag='Y'') else: cursor.execute('select Fproxy from t_proxy where FvaildFlag='Y' limit %s' % (proxyNum)) results = cursor.fetchall() for row in results: proxyList.append(row[0]) except: # Rollback in case there is any error sMysqL.rollback() sMysqL.close() return proxyListdef CheckIpProxyTimer(): arrIpList = [] arrIpList = getProxy(-1) #获取代理池全量有效代理IP #测试地址 #feature = 'xxx' #目标网页的特征码,暂时不启用 desUrl = "http://www.baidu.com" for ipProxy in arrIpList: iRes = checkProxyIP(desUrl,ipProxy) if iRes: #Proxy验证通过 setProxy(ipProxy,"Y") else: setProxy(ipProxy,"N") #失效无效代理if __name__ == '__main__': #0、爬取免费代理IP GrabIpProxy() #1、启动定时线程,定时测试并清洗数据库代理IP timer = threading.Timer(3600,CheckIpProxyTimer) timer.start() #2、设置定时器失效时间 time.sleep(5) timer.cancel() #5秒后停止定时器,程序可一直执行
3、地图服务模块
#!/usr/bin/env python3# -*- coding: utf-8 -*-# Author:elideng# date: 2017-11-08from urllib.request import urlopen,quoteimport jsonfrom bs4 import BeautifulSoupimport os#根据地址获取经纬度def getlnglat(address): url = 'http://api.map.baidu.com/geocoder/v2/' output = 'json' ak = 'ATzU2rqfrFoQcImvG9mvGm9bxchxjLYL' add = quote(address) #由于本文地址变量为中文,为防止乱码,先用quote进行编码 uri = url + '?' + 'address=' + add + '&output=' + output + '&ak=' + ak req = urlopen(uri) res = req.read().decode() temp = json.loads(res) lat=0 lng=0 if 0 == temp['status']: lat=temp['result']['location']['lat'] lng=temp['result']['location']['lng'] return lat,lng#根据两个经纬度计算距离def getPlacedistance(): return 0#根据两个地点计算各类交通时间def getPlaceTime(): return 0def drawHeatChart(date): file = open("data.js","a+") #data.js file.seek(3) # 定位到第0行 file.writelines(date) #写入源数据到热力图源文件 file.close() return 0if __name__ == '__main__': HeatChartSrcFile = input('输入热力图源文件:') #data.js drawHeatChart(HeatChartSrcFile)
热力图功能示例 显示热力图"/>关闭热力图"/>4、可视化模块
#!/usr/bin/env python3# -*- coding: utf-8 -*-# function:可视化服务# Author:elideng# date: 2017-11-05import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport plotlyimport plotly.plotly as pyimport plotly.graph_objs as go plotly.tools.set_credentials_file(username='elideng',api_key='tsc3809760')#雷达图显示房屋关注指标def drawRadarMap(chartName,arrLables,arrData,labelNum): #数据校验 if labelNum < 0 or labelNum >10: return -1 if len(arrLables) != labelNum or len(arrData) != labelNum: return -2 #=======自己设置开始============ #标签 labels = np.array(arrLables) #数据 data = np.array(arrData) #========自己设置结束============ angles = np.linspace(0,2*np.pi,labelNum,endpoint=False) data = np.concatenate((data,[data[0]])) # 闭合 angles = np.concatenate((angles,[angles[0]])) # 闭合 fig = plt.figure() ax = fig.add_subplot(111,polar=True) # polar参数!! ax.plot(angles,data,'bo-',linewidth=2) # 画线 ax.fill(angles,facecolor='r',alpha=0.25)# 填充 ax.set_thetagrids(angles * 180/np.pi,labels,fontproperties="SimHei") ax.set_title(chartName,va='bottom',fontproperties="SimHei") ax.set_rlim(0,10) ax.grid(True) plt.show()#皮尔逊作图def drawPearson(): return 02.1.3 Python教你买房系列
1、网页观察
首先确定爬取链家网深圳房源,确定起始地址http://sz.lianjia.com。通过上一页和下一页完整的URL比较组装符合筛选条件的房源链接。通过chrom的开发者工具的network,并把preserve log勾选,清空Filter后刷新网页,观察网页HTML代码。
2、网页爬取
通过python3的requests库提供的HTTP请求Get/Post通用方法模拟浏览器请求生成所有符合规则的URL放入到队列,并循环请求符合要求的房源信息。请求响应html通过BeautifulSoup解析html,并通过find_all配合正则表达式提取到html有效数据并写入到文件待分析。
3、多线程
爬虫最终目标就是爬取到更多符合用户需求的数据,如果单线程执行,抓取效率有限,因此爬虫需要加上多线程机制。多线程的实现方式有多种,如thread,threading,multithreading,其中thread偏底层,threading对thread进行了一定封装。Python实现多线程的方式有两种函数或类包装。
#多线程方式 for i in generate_allurl(user_in_nub,user_in_city): #获取某城市 print(i) for url in get_allurl(i): my_thread = threading.Thread(target=main,args=(url,arrIPList)) my_thread.start() print(url) my_thread.join() print("current has %d threads" % (threading.activeCount() - 1)) #当前存活线程 #线程池方式 pool.map(main,[url for url in get_allurl(i)])4、Headers设置
为避开反爬虫策略,后端请求需要模拟用户正常用户从浏览器请求,因此需要添加请求头。设置方式如下:
header = {'Accept': '*/*','Accept-Language': 'en-US,en;q=0.8','Cache-Control': 'max-age=0','User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/48.0.2564.116 Safari/537.36','Connection': 'keep-alive','Referer': 'http://www.baidu.com/'} res = requests.get(url,headers=header)5、Session设置
6、IP代理池
爬虫出现就诞生了反爬虫,反爬虫的出现就催生了反反爬虫,哲学家黑格尔说过存在就是合理。因此很多技术就是在抗衡中逐渐成长。链家网是有反爬虫IP封锁机制,为了防止反爬虫链接网限制爬取到更多数据样本帮助与分析。因此采用IP代理池的方式,每次请求都随机获取IP和端口访问外部网站。获取IP代理池的方式有付费的和免费的方式可自行网上抓取并分析。
proxies={"http":"http://10.14.36.109:8080"}res = requests.get(url,proxies=proxies)7、监控
爬虫抓取是一个耗时较长的工程,因此需要添加监控,定时上报抓取进度到业务方,确认整个爬虫程序是否正常执行。//Todo
2.2数据分析 //Todo
大数据时代的网络爬虫爬取到有效信息,需要经过反复清洗、加工、统计、分析、建模等处理方法。数据分析是整合有效信息并详细研究和概括形成结论的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
2.2.1 深圳购房词云分析
根据链家爬取样3199条待售房源,买卖二手房产我们最关系的参数指标词云图。如图所示我们最关注的满五牛,户型方正等。在购房的的时候我们可以按此词云图详细了解每个需要我们关注的参数指标,心有成竹。
#词云图def drawWordCloud(fileName):
d = path.dirname(__file__) # Read the whole text.
text = open(path.join(d,fileName),encoding='utf-8').read() # Generate a word cloud image 中文必须指定本地中文编码
wordcloud = WordCloud(font_path="C:WindowsFontssimsun.ttc",width=2400,height=1800).generate(text) # display the generated image:
plt.axis("off") # lower max_font_size
wordcloud = WordCloud(max_font_size=40).generate(text)
plt.axis("off")
plt.show()
2.2.2 深圳房源维度分析
深圳房源按多维度分析成交量/成交价趋势和皮尔逊系数分析;放盘量和反叛价分析;房源内部参数(如2.1.1)量化分析,房源外部参数量化分析等方式。最终解释我们购房时比较关心问题如怎么买的心仪的好房,何时是买房最好的时机等。
2.2.3 深圳房源数据模型
2.2.4 深圳房源均价热力模型
如图展示深圳深圳房源均价热力模型。//Todo 待分析
2.2.5 深圳房源均价涨速热力模型
//Todo 确定涨速最快,最具投资价值的区域,数据来源官网深圳房地产信息系统:http://ris.szpl.gov.cn/default.aspx
2.2.6 深圳房源成交量热力模型
//Todo
2.2.7 深圳房源成交量热力模型
2.2.8 深圳房源成交量和成交价皮尔逊系数
//Todo 计算皮尔逊系数,确定量价比关系,确认深圳房源当前状态和预测接下来可能的情况(有价有市,有市无价,有价无市),判断当前是否改上车。
2.2.9 深圳房屋内部指数量化雷达图模型
深圳房屋雷达图分析,程序首先会爬取到海量深圳待售的房产信息,等级差=(最高值-最低值)/10的方式把均价,实际使用率,梯户比例,楼层,楼间距等指标划分10等分,然后用户输入自己心仪的房子,程序将计算改房子的指标在海量房产中的雷达位置,帮助用户快速了解心仪房产的参数配置。效果图如下:
#雷达图显示房屋关注指标def drawRadarMap(chartName,10) ax.grid(True) plt.show()2.2.10 深圳房屋外部指数量化雷达图模型
//Todo 量化外部指标参数(学位,地铁距离,公交具体,公园分布,商圈等)
所以,还不会Python的,想买房的,赶快来学习了!限时抢购哦!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。