微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用于计算各种语言中的单词的PHP库/类?

在不久的将来有一段时间,我将需要实现跨语言字数,或者如果不可能,则跨语言字符数.

通过单词计数,我的意思是给定文本中包含的单词的准确计数,以文本的语言为准.文本的语言由用户设置,并被认为是正确的.

按字符计数我是指包含在给定文本中的“可能在一个字”字符中的计数,具有与上述相同的语言信息.

我更喜欢以前的计数,但我意识到所涉及的困难.我也知道,后者的数量要容易得多,但是如果可能的话,非常喜欢前者.

如果我只是看英文,我会很喜欢,但我需要考虑中文,韩文,英文,阿拉伯文,印度文等各种语言.

我想知道Stack Overflow是否有任何潜在客户在哪里开始寻找现有的产品/方法PHP中执行此操作,因为我是一个很好的懒惰程序员*

A simple test显示了set_locale的str_word_count如何不起作用,以及来自PHP.net的str_word_count页面函数.

* http://blogoscoped.com/archive/2005-08-24-n14.html

计数字符很容易:
echo strlen('一个有十的字符的句子'); // 30 (WRONG!)
echo strlen(utf8_decode('一个有十的字符的句子')); // 10

计数字是事情开始变得棘手的地方,特别是中文,日文和其他不使用空格(或其他常见的“边界”字符)的语言作为单词分隔符.我不会说中文,我不懂中文的字数如何,所以你必须教育一下 – 这些语言有什么用词?是否有任何特定的字符或一组字符?我记得阅读有关在T9写作中识别日语单词有多困难的东西,但是找不到它.

以下内容应正确返回使用空格或标点符号作为单词分隔符的语言的单词数:

count(preg_split('~[\p{Z}\p{P}]+~u',$string,null,PREG_SPLIT_NO_EMPTY));

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返回预支付订单号的接口,目前微信支付所有场景均使用这一接口。下面介绍的是其中NATIVE的支付实现流程与PC端实现扫码支付流程
统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返回预支付订单号的接口,目前微信支付所有场景均使用这一接口。下面介绍的是其中APP的支付的配置与实现流程
前言 之前做了微信登录,所以总结一下微信授权登录并获取用户信息这个功能的开发流程。 配置 1.首先得在微信公众平台申请一下微信小程序账号并获取到小程序的AppID和AppSecret https://mp.weixin.qq.com/cgi-bin/loginpage?url=%2Fwxamp%2F
FastAdmin是我第一个接触的后台管理系统框架。FastAdmin是一款开源且免费商用的后台开发框架,它基于ThinkPHP和Bootstrap两大主流技术构建的极速后台开发框架,它有着非常完善且强大的功能和便捷的开发体验,使我逐渐喜欢上了它。
之前公司需要一个内部的通讯软件,就叫我做一个。通讯软件嘛,就离不开通讯了,然后我就想到了长连接。这里本人用的是GatewayWorker框架。
统一支付是JSAPI/NATIVE/APP各种支付场景下生成支付订单,返回预支付订单号的接口,目前微信支付所有场景均使用这一接口。下面介绍的是其中JSAPI的支付实现流程
服务器优化必备:深入了解PHP8底层开发原理
Golang的网络编程:如何快速构建高性能的网络应用?
Golang和其他编程语言的对比:为什么它的开发效率更高?
PHP8底层开发原理揭秘:如何利用新特性创建出色的Web应用