如何解决newsletter3k,我做错了什么,作者功能没有在新闻文章中选择作者
这是关于newspaper3k库的作者功能。我有这个新闻 URL 列表。 “>>> article.authors” 有时不选择作者。示例如下:authors missing
解决方法
Newspaper3k 使用 Python 包 Beautiful Soup 从新闻网站中提取项目,例如作者姓名。 Newspaper3k 查询的标签是在Newspaper3k 源代码中预定义的。 Newspaper3k 尽最大努力从新闻网站上的这些标准标签中提取内容。
但是并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)在 HTML 中的位置不同结构。
例如Newspaper3k在这些标签中查找作者姓名:
VALS = ['author','byline','dc.creator','byl']
标签 dc.creator 始终位于新闻来源的 META 标签部分。如果您的新闻来源具有不同的作者标签,例如 LA Times 使用的 article.author,,那么您必须像这样查询该标签:
article_meta_data = article.meta_data
article_author = {value for (key,value) in article_meta_data['article'].items() if key == 'author'}
我在我的 newspaper3K overview document 中讨论了许多这些收获问题,我在我的 Github page 上分享了这些问题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。