微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ANSI C UTF-8问题

首先,我使用ANSI C(不是C和任何非标准库,如MS CRT或glibc,……)开发一个独立的平台库.

经过几次搜索后,我发现在ANSI C中进行国际化的最佳方法之一是使用UTF-8编码.

在utf-8中:

> strlen(s):始终计算字节数.
> mbstowcs(NULL,s,0):可以计算字符数.

但是当我想随机访问utf-8字符串的元素(字符)时,我遇到了一些问题.

在ASCII编码中:

char get_char(char* assci_str,int n)
{
  // It is very FAST.
  return assci_str[n];
}

在UTF-16/32编码中:

wchar_t get_char(wchar_t* wstr,int n)
{
  // It is very FAST.
  return wstr[n];
}

在这里我的UTF-8编码问题:

// What is the return type?
// Because sizeof(utf-8 char) is 8 or 16 or 24 or 32.
/*?*/ get_char(char* utf8str,int n)
{
  // I can found Nth character of string by using for.
  // But it is too slow.
  // What is the best way?
}

谢谢.

解决方法

也许你有点错误地考虑这个问题. UTF-8是一种编码,可用于序列化数据,例如将其写入文件或网络.然而,这是一个非常重要的编码,并且原始的Unicode代码点串可以以任意数量的编码字节结束.

你应该做的,如果你想处理文本(给定你的描述),就是在内部存储原始的固定宽度字符串.如果您要使用Unicode(您应该),那么每个代码点需要21位,因此最接近的整数类型是uint32_t.简而言之,将所有字符串存储在内部作为整数数组.然后,您可以随机访问每个代码点.

只在写入文件或控制台时编码为UTF-8,在读取时从UTF-8解码.

顺便说一句,Unicode代码点距离角色还有很长的路要走.角色的概念与高级别相比具有简单的一般机制. (例如“a”“重音坟墓” – 两个代码点,多少个字符?)

原文地址:https://www.jb51.cc/c/112503.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐