我正试图从韩国网站上提取股票价格和市值数据.
这是我的代码:
import requests from bs4 import BeautifulSoup response = requests.get('http://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=1') html = response.text soup = BeautifulSoup(html,'html.parser') table = soup.find('table',{ 'class': 'type_2' }) data = [] for tr in table.find_all('tr'): tds = list(tr.find_all('td')) for td in tds: if td.find('a'): company_name = td.find('a').text price_Now = tds[2].text market_cap = tds[5].text data.append([company_name,price_Now,market_cap]) print(*data,sep = "\n")
这就是我得到的结果. (抱歉韩文字符)
[‘삼성전자’,‘43,650’,‘100’]
[”,‘100’]
[‘SK하이닉스’,‘69,800’,‘5,000’]
[”,000’]
结果中的第二行和第四行不应该存在.我只想要第一行和第三行.第二和第四行来自哪里,如何摆脱它们?
解决方法
亲爱的朋友,我认为问题是你应该检查td.find(‘a’).文本是否有值!
所以我将你的代码改为此,它的工作原理!
import requests from bs4 import BeautifulSoup response = requests.get( 'http://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=1') html = response.text soup = BeautifulSoup(html,{'class': 'type_2'}) data = [] for tr in table.find_all('tr'): tds = list(tr.find_all('td')) for td in tds: # where magic happends! if td.find('a') and td.find('a').text: company_name = td.find('a').text price_Now = tds[2].text market_cap = tds[5].text data.append([company_name,market_cap]) print(*data,sep="\n")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。