微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

解码和编码字符串,Java 中的 ISO-8859-1 到 UTF-8

如何解决解码和编码字符串,Java 中的 ISO-8859-1 到 UTF-8

我已阅读有关此问题的其他帖子,但他们提出的解决方案对我不起作用。实际上,官方 Java 文档也没有按预期工作(我使用的是 Java 11):https://docs.oracle.com/javase/tutorial/i18n/text/string.html

我的问题是我一次从字节缓冲区中读取一个字节,将其放入一个字节数组中,然后从该字节数组中生成一个字符串。我读取的字节来自只能发送 ISO-8859-1 字节的嵌入式系统,所以我最终得到一个带有 ISO-8859-1 字节的字节数组,因此我最终得到的 Java 字符串是 ISO-8859-1编码。这里没问题。 IntelliJ 中的字符串如下所示:

enter image description here

我试图从 ISO-8859-1 转换为 UTF-8 的字节是黄色的。我希望它们是 UTF-8,所以最后应该将“C9”字节替换为“C3A9”字节。

第一步工作正常,我这样做:maintenanceResponseString.getBytes(StandardCharsets.UTF_8),我得到了我想要的正确字节,字符串的 UTF-8 编码,这很好:

enter image description here

问题就在这里,当我尝试从这些新的(和好的)字节中创建一个 STRING 时,如下所示:

new String(maintenanceResponseString.getBytes(StandardCharsets.UTF_8),StandardCharsets.UTF_8)

enter image description here

旧字节又回来了?!!就像“getBytes(UTF-8)”从未真正发生过一样。这不是文档所说的应该发生的事情......我在这里错过了什么?我已经做了测试,字符串仍然是 ISO-8859-1 编码......我不知道这里发生了什么。来自“getBytes”的字节在哪里?

如何将包含 ISO-8859-1 字节的字符串转换为 UTF-8 字节?我没有其他选择,我需要为专业项目做得非常糟糕......这应该很容易!

注意:我尝试过类似的替代方案

ByteBuffer buffer = StandardCharsets.UTF_8.encode(s);
return StandardCharsets.UTF_8.decode(buffer).toString();

但同样的事情发生了。

预先感谢您的帮助。

编辑: 在关于 Java 9+ 中的字符串如何在内部不再仅表示为 UTF-16 而是 Latin-1(为什么......)的评论中有一些信息,我认为这让我认为字符串是“内部编码的Latin-1",当它只是字符串的认表示时如果我们没有指定显示字符串时要使用的编码

据我所知,字符串本身未绑定到任何编码,您可以选择在写入时要显示的编码。 实际上我的问题是字符串最终通过 LATIN-1 中的 JAXB 编组写入 XML 文件,我现在认为问题出在那里......当我再次访问我的工作计算机时,我会进一步挖掘并在此处报告>

解决方法

事实证明,字符串和“它们的编码”没有任何问题。发生的事情是我真的很困惑,因为调试器以“默认内部存储编码”显示字符串的内容,即 ISO-8859-1(但可以是 UTF-16,取决于字符串的内容)。

引用自 JEP-254 :

我们建议改变String类的内部表示 从 UTF-16 字符数组到字节数组加上编码标志字段。 新的 String 类将存储编码为 ISO-8859-1/Latin-1(每个字符一个字节),或作为 UTF-16(两个字节 每个字符),基于字符串的内容。编码 标志将指示使用哪种编码。

但实际上内部编码存储并不重要。当需要写入时,字符串将使用您在写入时所需的任何编码

我的问题实际上是当我使用 Spring RestTemplate 在 HTTP 请求中发送字符串时。我没有指定要在请求中使用的“字符集”的标头,如果没有另行说明,RestTemplate 默认为 ISO-8859-1。我添加了charset=utf-8,并且请求中的字符串正确写成了UTF-8。

感谢@VGR @Eugene @skomisa 的帮助

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?