微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在Clickhouse中匹配汉字

如何解决如何在Clickhouse中匹配汉字

我尝试使用 clickhouse sql 从字符串中提取中文字符。

我使用:

select extractAll('dkfdfjsd1234中文字符串','[a-zA-Z]')

它可以成功返回:

['d','k','f','d','j','s','d']

现在我想像这样提取中文,我试过:

select extractAll('dkfdfjsd1234中文字符串','[\u4e00-\u9fa5]')

它返回错误

Code: 427,e.displayText() = DB::Exception: OptimizedRegularExpression: cannot compile re2: [\u4e00-\u9fa5],error: invalid escape sequence: \u. Look at https://github.com/google/re2/wiki/Syntax for reference. Please note that if you specify regex as an sql string literal,the slashes have to be additionally escaped. For example,to match an opening brace,write '\(' -- the first slash is for sql and the second one is for regex (version 20.8.14.4 (official build))

解决方法

要匹配 Unicode 点,请使用 \x{FFFF}:

SELECT extractAll('dkfdfjsd1234中文字符串','[\\x{4e00}-\\x{9fa5}]') AS result

/*
┌─result─────────────────────┐
│ ['中','文','字','符','串'] │
└────────────────────────────┘
*/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。