技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

处理Java字符串中的Unicode代理值

时间：2019-04-30分类：Java作者：编程之家

请考虑以下代码：

byte aBytes[] = { (byte)0xff,0x01,(byte)0xd9,(byte)0x65,(byte)0x03,(byte)0x04,(byte)0x05,(byte)0x06,(byte)0x07,(byte)0x17,(byte)0x33,(byte)0x74,(byte)0x6f,1,2,3,4,5,0 };
String sCompressedBytes = new String(aBytes,"UTF-16");
for (int i=0; i<sCompressedBytes.length; i++) {
    System.out.println(Integer.toHexString(sCompressedBytes.codePointAt(i)));
}

获取以下不正确的输出：

ff01,fffd,506,717,3374,6f00,102,304,500.

但是,如果输入数据中的0xd9更改为0x9d,则可以获得以下正确的输出：

ff01,9d65,500.

我意识到功能是因为字节0xd9是高代数Unicode标记.

问题：有没有办法在Java Unicode字符串中提供,识别和提取代理字节(0xd800到0xdfff)？
谢谢

解决方法

Is there a way to Feed,identify and extract surrogate bytes (0xd800 to 0xdfff) in a Java Unicode string?

只是因为没有人提到它,我会指出,Character课程包括使用代理对的方法.例如. isHighSurrogate(char),codePointAt(CharSequence,int)和toChars(int).我意识到这是除了说明的问题之外.

new String(aBytes,"UTF-16");

这是一个将转换输入数据的解码操作.我很确定它是不合法的,因为所选的解码操作要求输入以0xfe 0xff或0xff 0xfe(byte order mark)开头.另外,由于UTF-16是variable width encoding,因此不是每个可能的字节值都能正确解码.

如果您想要将任意字节对称转换为String并返回,则最好使用8位单字节编码,因为每个字节值都是有效字符：

Charset iso8859_15 = Charset.forName("ISO-8859-15");
byte[] data = new byte[256];
for (int i = Byte.MIN_VALUE; i <= Byte.MAX_VALUE; i++) {
  data[i - Byte.MIN_VALUE] = (byte) i;
}
String asstring = new String(data,iso8859_15);
byte[] encoded = asstring.getBytes(iso8859_15);
System.out.println(Arrays.equals(data,encoded));

注意：字符数将等于字节数(数据大小加倍);所得到的字符串不一定是可打印的(包含它可能是bunch of control characters).

我是with Jon,尽管把任意字节序列放入Java字符串几乎总是一个坏主意.

原文地址：https://www.jb51.cc/java/121097.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：java – MongoDB明显太大了16mb的帽下一篇：java – 如何在大(Android)项目中舒

相关推荐

java进制转换（无视正负数的差别）

最近看了一下学习资料，感觉进制转换其实还是挺有意思的，尤其是对于负数这一方面。下面和大家分享一下，这里只写了十进制到二进制的转换，其实都是同样的道理 1 public class Test1 { 2 3 public static void main(String[] args) { 4 ...

作者：张旭小侠时间：2024-09-26

java集合框架（hashSet自定义元素是否相同，重写hashCode和equals方法）

/*HashSet 基本操作 * --set:元素是无序的，存入和取出顺序不一致，元素不可以重复 * （通过哈希值来判断是否是同一个对象） * ----HashSet：底层数据结构是哈希表， * 保证数据唯一性的方法是调用存入元素的hashCode（）方法 * 和equals(Obj...

作者：张旭小侠时间：2024-09-26

java 集合框架(List操作)

/*list 基本操作 * * List a=new List(); * 增 * a.add(index,element);按指定位置添加，其余元素依次后移 * addAll(index,Collection);在从指定位置开始添加一系列元素，其余元素依次后移 * 删 * a.remove(...

作者：张旭小侠时间：2024-09-26

/* * 内部类 * */ 1 class OutClass{ 2 //定义外部类的成员变量 3 private int x=1; 4 //定义外部类函数 5 public void methodOut(){ 6 System.out.println(...

作者：张旭小侠时间：2024-09-26

java集合的操作(set,Iterator)

集合的操作Iterator、Collection、Set和HashSet关系Iterator set=new HashSet(); //向集合中添加元素 set.add("a"); set.add("b"); set.add("c"); s

作者：张旭小侠时间：2024-09-26

接口中常量的修饰关键字：public，static，final（常量）函数的修饰关键字：public，abstract如果没有写全，系统在编译时会自动加上接口中的所有成员都是public接口中的方法，都是抽象方法， * 接口是不可以创建对象，因为有抽象方法；子类如果只实现部分接口的抽象方法，则子类是

作者：张旭小侠时间：2024-09-26

java 集合框架(TreeSet操作,自动对数据进行排序,重写CompareTo方法)

/*TreeSet * treeSet存入数据后自动调用元素的compareTo(Object obj) 方法，自动对数据进行排序 * 所以输出的数据是经过排序的数据 * 注：compareTo方法返回值有：负数，零，正数。分别表示小于，等于，大于 * 对于存入自定义的对象元素，要重写元...

作者：张旭小侠时间：2024-09-26

java映射(map用法)

主要分两个接口：collection和Map主要分三类：集合(set)、列表(List)、映射(Map)1.集合：没有重复对象，没有特定排序方式2.列表：对象按索引位置排序，可以有重复对象3.映射：有一个键对象和一个值对象，键不可重复，值可以重复hashtable 和hashmap区别1 HashM

作者：张旭小侠时间：2024-09-26

java Http消息传递之POST和GET两种方法

/** * 通过Get方法来向服务器传值和获取信息， * 这里举例假设的前提是，链接上服务器，服务器直接发送数据给本地 * * 大体的思路： * 1、首先通过URL地址来获得链接的借口 * 通过接口，来设置链接超时的时间，请求方式，是否可以输入输出数据 * 得到读取服务器内容的...

作者：张旭小侠时间：2024-09-26

Java中Json解析

首先准备一个JSON格式的字符串 * String JsonStr = "{object:{persons:" + "[{name:'呵呵',image:'http://10.0.159.132:8080/Web/s1.png'},&qu

作者：张旭小侠时间：2024-09-26

小编推荐

苹果市值2025年有望达4万亿美元