微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从Wikipedia文章Python中提取第一段

如何解决从Wikipedia文章Python中提取第一段

前一段时间,我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案,但是您可以根据需要进行调整:

wikipedia.py wiki2plain.py

您可以像这样使用它:

from wikipedia import Wikipedia
from wiki2plain import Wiki2Plain

lang = 'simple'
wiki = Wikipedia(lang)

try:
    raw = wiki.article('Uruguay')
except:
    raw = None

if raw:
    wiki2plain = Wiki2Plain(raw)
    content = wiki2plain.text

解决方法

如何使用Python从Wikipedia文章中提取第一段?

例如,对于 Albert Einstein ,那将是:

阿尔伯特·爱因斯坦(发音:/ ˈælbərt ˈaɪnstaɪn /;德语:[ˈalbɐt ˈaɪnʃtaɪn](听);
1879年3月14日至1955年4月18日)是一位理论物理学家,哲学家和作家,被广泛认为是最有影响力和标志性的科学家和知识分子之一所有的时间。爱因斯坦是德国瑞士诺贝尔奖获得者,通常被认为是现代物理学之父。[2]
他因“对理论物理学的贡献,特别是对光电效应定律的发现”而获得了1921年诺贝尔物理学奖。[3]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。