如何解决如何在Clickhouse中匹配汉字
我尝试使用 clickhouse sql 从字符串中提取中文字符。
我使用:
select extractAll('dkfdfjsd1234中文字符串','[a-zA-Z]')
它可以成功返回:
['d','k','f','d','j','s','d']
select extractAll('dkfdfjsd1234中文字符串','[\u4e00-\u9fa5]')
它返回错误。
Code: 427,e.displayText() = DB::Exception: OptimizedRegularExpression: cannot compile re2: [\u4e00-\u9fa5],error: invalid escape sequence: \u. Look at https://github.com/google/re2/wiki/Syntax for reference. Please note that if you specify regex as an sql string literal,the slashes have to be additionally escaped. For example,to match an opening brace,write '\(' -- the first slash is for sql and the second one is for regex (version 20.8.14.4 (official build))
解决方法
要匹配 Unicode 点,请使用 \x{FFFF}:
SELECT extractAll('dkfdfjsd1234中文字符串','[\\x{4e00}-\\x{9fa5}]') AS result
/*
┌─result─────────────────────┐
│ ['中','文','字','符','串'] │
└────────────────────────────┘
*/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。