微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Python从HTML提取数据

如何解决使用Python从HTML提取数据

获取BeautifulSoup并使用它。这很棒。

$> easy_install pip
$> pip install BeautifulSoup
$> python
>>> from BeautifulSoup import BeautifulSoup as BS
>>> import urllib2
>>> html = urllib2.urlopen(your_site_here)
>>> soup = BS(html)
>>> elem = soup.findAll('a', {'title': 'title here'})
>>> elem[0].text

解决方法

我的Python代码处理了以下文本:

<td>
<a href="http://www.linktosomewhere.net" title="title here">some link</a>
<br />
some data 1<br />
some data 2<br />
some data 3</td>

您能建议我如何从内部提取数据<td>吗?我的想法是将其放入具有以下格式的CSV文件中:some link,some data 1,some data 2,some data 3

我希望没有正则表达式会很困难,但实际上我仍然在反对正则表达式。

我或多或少地通过以下方式使用了代码:

tabulka = subpage.find("table")

for row in tabulka.findAll('tr'):
    col = row.findAll('td')
print col[0]

理想情况下是将每个td竞争以某个数组进行竞争。上面的HTML是python的结果。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。