我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)
我执行此命令:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
问题是它给了我一个小小的错误:它认为我的语言不同.
例如,第一个条目是:
306 continua 278 apertura 211 eventi 189 murah 182 giochi 167 giochi
你可以看到,与giochi重复两次
1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 winchester 1 wind 1 wind
对于所有的话
对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟.
我究竟做错了什么?
非常感谢
解决方法
首先尝试排序:
cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt
原文地址:https://www.jb51.cc/linux/394082.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。