如何解决Xml文件永远不应该作为String传递,如何激励?
| 看到如下所示的方法签名时,我感到非常不舒服:public void foo(String theXml);
如果传递以UTF-16 XML声明开头的字符串,则foo
将如何?
我认为,应该将XML键入为强XML类型,例如DOM树或字节数组。因此,foo应该重新声明为:
public void foo(Byte[] theXml);
通常,当读取theXml
具有某种编码时,程序员会不必要地假设。通常只是希望文件库的默认文件能够正确猜测。
我该如何激励我的同事?
不兼容的文档标题编码声明的动机太弱。 (使用强类型或字节数组将不鼓励对文档进行幼稚的解析/修改。)我已经看到无数次由于这种错误而导致编码中断。
解决方法
确保测试套件中有一个测试,如果在字符串中错误地处理了XML,该测试将失败。如果没有解释问题的动机,则表明它正在发生……
, 将XML传递为“ 4”并不比将其传递为“ 5”更错误-如果输入已被解码,则可以高兴地忽略处理指令中的解码提示。您担心会对编码做出错误的假设,但是如果您使用字符串,则编码不是问题,因为您无需解码任何内容。 (当然,有人可能会从原始字节构造字符串,并在那时做出不正确的假设,这当然是个问题。但是再说一次,如果您使用
byte[]
参数,则有人可能已经有了一个字符串并将其转换为字节使用不正确的字符集。)
解析字符串输入并不比解析来自诸如java.io.Reader
或System.IO.TextReader
这样的解码源的输入(大多数XML解析器允许您这样做)陌生,这将我们带到了另一个主题:我建议不要将未解析的XML完全作为字符串或字节数组传递-如果您使用ѭ9(对于源,您不知道其编码)和ѭ10((如果您知道编码,或者由于某种原因不需要解码数据),则将获得更大的灵活性。您还将获得的好处是,整个文档在解析之前无需驻留在内存中。
因此,代替此:
public void foo(String theXml);
public void foo(byte[] theXml);
// Usage:
foo(\"<document />\");
foo(\"<?xml version=\'1.0\' encoding=\'UTF-8\' ?><document />\".getBytes(\"UTF-8\"));
...您将拥有:
public void foo(Reader source);
public void foo(InputStream source);
// Usage:
foo(new StringReader(\"<document />\"));
foo(new ByteArrayInputStream(\"<?xml version=\'1.0\' encoding=\'UTF-8\' ?><document />\"
.getBytes(\"UTF-8\")));
, 我猜那些忽略编码重要性的人可以通过使用foo(Encoding.Default.GetBytes(theString))
解决您的建议。下一个可能会为您的课程做一个包装,以便他们可以再次使用using14ѭ。
我猜想,在某些时候,必须格外小心地使某些事情正确完成,并防止那些不希望编写正确代码的人在开始之前就陷入一场失败的战斗。
我个人实际上总是发现我们在编码数据流中声明编码有点奇怪的事实。但这是很理论的。
, 我实际上同意您的同事。除非您想节省内存,否则在调试中无法读取,对此并没有一个很好的论据。无论哪种类型,都应在传递编码之前检查编码。
但是,如果您创建或使用包装器,则可以认为代码更干净。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。