微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

text – 对于合理的日语支持,什么是最小的unicode字符集?

我有一个需要移植给日本观众的移动应用程序.部分应用程序是一个自定义字体文件,需要从仅包含latin-1字符扩展到也包含日语字符.我意识到这将使它变得相当大,但这不是今天的问题.

请注意,我无法控制此应用程序要显示的文本,因此它需要能够支持足以显示用户生成内容.

以下是我认为最大的unicode范围集合,可以覆盖它所需的任何内容.

Compatability                         U+3300  -  U+33FF
 Compatability forms                   U+FE30  -  U+FE4F
 Compatability ideographs              U+F900  -  U+FAFF
 Compatability ideographs supplement  U+2F800  - U+2FA1F
 Radicals supplement                   U+2E80  -  U+2EFF
 strokes                               U+31C0  -  U+31EF
 Symbols and punctuation               U+3000  -  U+303F
 Unified Ideographs                    U+4E00  -  U+9FBB
 Unified Ideographs ext. A             U+3400  -  U+4DB5
 Unified Ideographs ext. B            U+20000  - U+2A6D6
 Enclosed letters and months           U+3200  -  U+32FF
 Hiragana                              U+3040  -  U+309F
 Kanbun                                U+3190  -  U+319F
 Katakana                              U+30A0  -  U+30FF
 Katakana phonetic                     U+31F0  -  U+31FF

我需要知道的是:

>此列表中是否有任何遗漏?
>显然不需要任何东西吗?
>有什么可以说是非必要的,为什么会这样说?

解决方法

基本特征总结
Enclosed Alphanumerics                U+2460  -  U+2473
            "                         U+2474  -  U+24E9*
            "                         U+24EA  -  U+24FF
Miscellaneous Symbols                 U+2600  -  U+2607
            "                         U+2618  -  U+2618
            "                         U+260E  -  U+260F
            "                         U+2614  -  U+2615
            "                         U+263D  -  U+2653
            "                         U+2660  -  U+266F
Symbols and punctuation               U+3000  -  U+303F
Hiragana                              U+3040  -  U+309F
Katakana                              U+30A0  -  U+30FF
Katakana phonetic                     U+31F0  -  U+31FF
Enclosed letters and months           U+321F  -  U+325F*
            "                         U+3280  -  U+32FF*
Unified Ideographs ext. A             U+3400  -  U+4DB5
Unified Ideographs                    U+4E00  -  U+9FBB
Compatability ideographs              U+F900  -  U+FAFF
Compatability forms                   U+FE30  -  U+FE4F
Full-Width Roman                      U+FF00  -  U+FF5E
Half-Width Katakana                   U+FF61  -  U+FF9F
Full- and Half-Width Symbols          U+FFE0  -  U+FFEE
Unified Ideographs ext. B            U+20000  - U+2A6D6
Compatability ideographs supplement  U+2F800  - U+2FA1F

* = Lower priority

完整解释

不要忘记全宽罗马,它常用于日语(FF00-FF5E)的罗马字母和半角片假名(FF61-FF9F).您可能还需要全宽和半宽符号(FFE0-FFEE).

可以进行论证,通常不使用Kanbun注释页面(3190-319F). Kanbun是旧式的日语,它使用所有汉字(没有平假名或片假名)和一套不同的语法规则,通常在学校教授.除非有人试图解释如何阅读/理解其中一个段落,否则不会使用这些注释标记,这可能不太可能.它可以包括在内以保证完整性,但可能不是一个高优先级.

CJK Compatability(3300-33FF)通常被印刷媒体使用,但几乎肯定不会被普通公众使用(我还没有在网站上看到一个).在任何一种情况下,它们都具有相同的长形式(例如,㌘可以写成グラム),所以这也是非必要类别.

CJK自由基补充剂(2E80-2EFF)也是非必需品,但可以使用.它们不是完整的字符,而是字符的“激进”(基础部分).它们可用于解释字符的派生,但不太可能在语言的正常应用中使用.

CJK strokes(31C0-31E3)与CJK Radicals Supplement相同,可能在日常应用中使用的可能性更小.

封闭的CKJ快报和月份(3200-321E)的第一部分是不必要的.它们是韩国符号.与(3260-327F)相同.页面的其余部分使用率很低,但我会将其包含在内,因为有人可能会尝试偶尔使用它.但你可以认为它们的优先级较低.

您在原始列表中提到的其余内容非常重要.

列表中还缺少封闭的字母数字(2460-24FF).带圆圈的数字(2460-2473和24EA-24FF)相对频繁使用.但是,带圆圈的字母,带括号的数字和数字句点(2474-24E9)可以省略为非必要的.

此外,您最好包括杂项符号(2600-263C),尽管有些符号比其他符号更常用.绝对必要的包括一些天气符号(2600-2607),三叶草(2618),电话(260E-260F),伞和热饮(2614-2615),占星和十二生肖(263D-2653),以及播放卡片,温泉和音乐符号(2660-266F).

原文地址:https://www.jb51.cc/html/226458.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐