下面是编程之家 jb51.cc 通过网络收集整理的代码片段。
编程之家小编现在分享给大家,也给大家做个参考。
#coding=utf8 import urllib2 import codecs import re import time from lxml import etree url1 = 'http://521xunlei.com/portal.PHP' path1 = '//*[@id="portal_block_62_content"]/div/ul/li[1]/a/@href' path3 = '//*[@class="t_f"]/font/text()' def geturlinfo(url,path,x): request = urllib2.Request(url) response = urllib2.urlopen(request) result = response.read() restree = etree.HTML(result) nodes = restree.xpath(path) if x == '1': return nodes[0] else: i=0 open('thunder.txt','w').write('') for node in nodes: if re.search(':',node): INFO = str(i)+': '+node.replace('\r\n','') print INFO open('thunder.txt','a').write(INFO.encode('utf8')+'\n') i+=1 if __name__ == '__main__': while True: print '===================start===================\n' url2 = 'http://'+url1.replace('http://','').split('/')[0]+'/'+geturlinfo(url1,path1,'1') print 'GET From: '+url2 geturlinfo(url2,path3,'0') time.sleep(24*3600) #starts-with(@id,"test") id已test开头的 #首先获取对应div 再次xpath string(.) 组合
以上是编程之家(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。