中文NLP语料整理
个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼。
有很多公开的语料,被他人收费,或要积分下载等等。
对平时开发造成诸多不便。
这边整理了一些自己收集到的语料方便大家使用
新闻文本分类语料
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。
github地址:https://github.com/gaussic/text-classification-cnn-rnn#text-classification-with-cnn-and-rnn
下载地址
cnews新闻的子集精简版
本次训练使用了其中的10个分类,每个分类6500条数据。
类别如下:
体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
这个子集可以在此下载:链接: https://pan.baidu.com/s/1hugrfRu 密码: qfud
搜狗新闻语料
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
http://www.sogou.com/labs/resource/ca.PHP
注意选择IE浏览器否则 下载失败
复旦大学语料
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别
链接: https://pan.baidu.com/s/1XU3ATrXb4gW3hANTPRu0iA 提取码: 36wh
情感分析语料
Sownnlp 开源包中情感分析语料
共3W多条评论类型
链接: https://pan.baidu.com/s/120ZEXEMbTgm2vu6825JmAw 提取码: 04p1
苏神开放的情感分析语料
共2W多条也是短评类型
链接: https://pan.baidu.com/s/1ftPIn8zohcTjMGQ5Pd5Shg 提取码: 17m1
实体分析语料
BosonNLP开发者语料
大家遵循《玻森数据开发者下载须知》
下载地址:https://bosonnlp.com/dev/resource
链接: https://pan.baidu.com/s/1wx5zX6EvP8UWfZrQhzXiZA 提取码: 88x3
详细的ner标注语料
这份语料我这边找不到来源了。
如有清楚的请和我联系一下
链接: https://pan.baidu.com/s/1va2z6mYtKEd1VWAQXFPnHw 提取码: ptad
垃圾分类语料
https://github.com/alexayan/garbage-classification-data
超多的中文语料分享:https://github.com/brightmart/nlp_chinese_corpus
超多的中文NLP相关资源:https://github.com/fighting41love/funNLP
各种模型相关例子:https://github.com/keras-team/keras/tree/master/examples
各种资源来源网络,如有侵权联系我,马上删除。
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-b6c3c6d139.css" rel="stylesheet">
<div class="more-toolBox">
<div class="left-toolBox">
<ul class="toolBox-list">
<li class="tool-item tool-active is-like "><a href="javascript:;"><svg class="icon" aria-hidden="true">
<use xlink:href="#csdnc-thumbsup"></use>
</svg><span class="name">点赞</span>
<span class="count">6</span>
</a></li>
<li class="tool-item tool-active is-collection "><a href="javascript:;" data-report-click="{"mod":"popu_824"}"><svg class="icon" aria-hidden="true">
<use xlink:href="#icon-csdnc-Collection-G"></use>
</svg><span class="name">收藏</span></a></li>
<li class="tool-item tool-active is-share"><a href="javascript:;"><svg class="icon" aria-hidden="true">
<use xlink:href="#icon-csdnc-fenxiang"></use>
</svg>分享</a></li>
<!--打赏开始-->
<!--打赏结束-->
<li class="tool-item tool-more">
<a>
<svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg>
</a>
<ul class="more-Box">
<li class="item"><a class="article-report">文章举报</a></li>
</ul>
</li>
</ul>
</div>
</div>
<div class="person-messageBox">
<div class="left-message"><a href="https://blog.csdn.net/cyz52">
<img src="https://profile.csdnimg.cn/5/B/B/3_cyz52" class="avatar_pic" username="cyz52">
<img src="https://g.csdnimg.cn/static/user-reg-year/2x/4.png" class="user-years">
</a></div>
<div class="middle-message">
<div class="title"><span class="tit"><a href="https://blog.csdn.net/cyz52" data-report-click="{"mod":"popu_379"}" target="_blank">菜园子哇</a></span>
</div>
<div class="text"><span>发布了33 篇原创文章</span> · <span>获赞 36</span> · <span>访问量 2万+</span></div>
</div>
<div class="right-message">
<a href="https://im.csdn.net/im/main.html?userName=cyz52" target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-letter">私信
</a>
<a class="btn btn-sm bt-button personal-watch" data-report-click="{"mod":"popu_379"}">关注</a>
</div>
</div>
</div>
BrainEditor
发布了10 篇原创文章 · 获赞 0 · 访问量 317
私信
关注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。