如何解决保存非 UTF-8 文本时,DocumentDB 失败并显示错误代码 9
当文本包含非 UTF-8 字符时,我在将文档保存到 AWS DocumentDB(版本 4.0.20)时遇到一些错误。这源于使用 UTF-8 以外的字符编码(例如 ISO-8859-1 或 windows-1252)的网页。
特别是像这样的文本中的撇号是有问题的:
While it isn’t used as a gimmick
因为原始文本在复制/粘贴/发布过程中可能“有用”地转换为 UTF-8,因此原始字节为:87,104,105,108,101,32,116,115,110,226,128,153,117,100,97,103,109,99,107
-- 请参阅原始页面 here
当我尝试将字符串作为文档字段插入 AWS DocumentDB 时,该字符串会生成类型 9 错误。它在我本地的 Mongo 实例上保存得很好。
有没有办法进行保存?或者是在我们尝试保存文本之前正确转换文本的唯一真正解决方案(例如,使用 iconv
或类似方法从 ISO-8859-1 编码转换)?我怀疑部分问题在于用于获取网页的编程语言在内部使用 UTF-8 来表示字符串,但据我所知,它并没有强制进行任何字节转换。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。