如何解决C# "anyString".Contains('\0', StringComparison.InvariantCulture) 在 .NET5 中返回 true 但在旧版本中返回 false
我在尝试将项目从 .NET Core 3.1 升级到最新的 .NET 5 时遇到了不兼容的问题。
我的原始代码有一个验证逻辑,通过检查从 Path.GetInvalidFileNameChars() API 返回的每个字符来检查无效的文件名字符。
var invalidFilenameChars = Path.GetInvalidFileNameChars();
bool validFileName = !invalidFilenameChars.Any(ch => fileName.Contains(ch,StringComparison.InvariantCulture));
假设您为 fileName 提供了一个常规值,例如应该有效的“test.txt”。然而,令人惊讶的是,如果您使用“net5”目标框架运行,上述代码给出的文件名无效。
在调试了一段时间后,我发现返回的无效字符集包含'\0'、空ASCII字符和“text.txt”。Contains("\0,StringComparison.InvariantCulture) 给出了true。
class Program
{
static void Main(string[] args)
{
var containsNullChar = "test".Contains("\0",StringComparison.InvariantCulture);
Console.WriteLine($"Contains null char {containsNullChar}");
}
}
如果您在 .NET Core 3.1 中运行,它永远不会说常规字符串包含空字符。此外,如果我省略第二个参数 (StringComparison.InvariantCulture) 或者如果我使用 StringComparison.Ordinal,则永远不会返回奇怪的结果。
为什么在 .NET5 中改变了这种行为?
编辑: 正如 Karl-Johan Sjögren 之前所评论的,.NET5 中确实存在关于字符串比较的行为变化:
Behavior changes when comparing strings on .NET 5+
另见相关工单:
string.IndexOf get different result in .Net 5
虽然这个问题应该与上面有关,但与 '\0' 相关的当前结果对我来说仍然很奇怪,可能仍然被认为是 @xanatos 回答的错误。
EDIT2:
现在我意识到这个问题的真正原因是我在 InvariantCulture 和 Ordinal 字符串比较之间的混淆。它们实际上是完全不同的东西。见下面的票:
Difference between InvariantCulture and Ordinal string comparison
另请注意,这应该是 .NET 的独特问题,因为其他主要编程语言(例如 Java、C++ 和 Python)默认处理序数比较。
解决方法
不是错误,是功能
我打开的 issue 已经关闭,但他们给出了很好的解释。现在...在 .NET 5.0 中,他们开始在 Windows 上使用(在 Linux 上已经存在)一个用于比较字符串的新库,即 ICU 库。它是Unicode Consortium的官方库,所以是“动词”。该库用于 CurrentCulture
、InvariantCulture
(加上相应的 IgnoreCase
)和任何其他文化。唯一的例外是 Ordinal
/OrdinalIgnoreCase
。该库面向文本,它对非文本有一些“特殊”的想法。在这种特殊情况下,there are some characters that are simply ignored。在块 0000-00FF 中,我会说被忽略的字符都是控制代码(请忽略它们显示为 €‚ƒ„†‡ˆ‰Š‹ŒŽ‘’“”•–—™š›œžŸ
的事实,在某些时候这些字符已被重新映射到 Unicode 中的其他地方,但 glyps显示并没有反映它,但是如果您尝试查看他们的代码,例如执行 char ch = '€'; int val = (int)ch;
您会看到它),并且 '\0'
是一个控制代码。
现在...我个人的想法是,要从今天开始比较 string
,您需要拥有 Unicode 技术硕士学位?,我确实希望他们能在 .NET 6.0 中做一些恶作剧默认比较 Ordinal
(它是 proposals for .NET 6.0 之一,选项 B)。请注意,如果您想制作可以在土耳其运行的程序,您已经需要 Unicode 技术硕士学位(请参阅 Turkish i problem)。
总的来说,我会说要查找不是关键字/固定词(例如列名)的词,您应该使用文化感知比较,同时查找关键字/固定词(例如列名)和符号/控制代码你应该使用序数比较。问题是当您想同时查找两者时。通常在这种情况下,您正在寻找精确 词,因此您可以使用序数。否则就变成地狱了。我什至不想考虑 Regex 在文化感知环境中如何在内部工作。我不想去想。因为在那个方向上只会有愚蠢和噩梦?。
作为旁注,即使在“默认”文化感知比较之前,也有一些秘密的 shaeaningans ......例如:
int ix = "ʹ$ʹ".IndexOf("$"); // -1 on .NET Framework or .NET Core <= 3.1
我之前写的
我会说这是一个错误。 IndexOf
也有类似的错误。 I've opened an Issue on github to track it。
如您所写,Ordinal
和 OrdinalIgnoreCase
按预期工作(可能是因为它们不需要使用新的 ICU 库来处理 Unicode)。
一些示例代码:
Console.WriteLine($"Ordinal Contains null char {"test".Contains("\0",StringComparison.Ordinal)}");
Console.WriteLine($"OrdinalIgnoreCase Contains null char {"test".Contains("\0",StringComparison.OrdinalIgnoreCase)}");
Console.WriteLine($"CurrentCulture Contains null char {"test".Contains("\0",StringComparison.CurrentCulture)}");
Console.WriteLine($"CurrentCultureIgnoreCase Contains null char {"test".Contains("\0",StringComparison.CurrentCultureIgnoreCase)}");
Console.WriteLine($"InvariantCulture Contains null char {"test".Contains("\0",StringComparison.InvariantCulture)}");
Console.WriteLine($"InvariantCultureIgnoreCase Contains null char {"test".Contains("\0",StringComparison.InvariantCultureIgnoreCase)}");
Console.WriteLine($"Ordinal IndexOf null char {"test".IndexOf("\0t",StringComparison.Ordinal)}");
Console.WriteLine($"OrdinalIgnoreCase IndexOf null char {"test".IndexOf("\0",StringComparison.OrdinalIgnoreCase)}");
Console.WriteLine($"CurrentCulture IndexOf null char {"test".IndexOf("\0",StringComparison.CurrentCulture)}");
Console.WriteLine($"CurrentCultureIgnoreCase IndexOf null char {"test".IndexOf("\0",StringComparison.CurrentCultureIgnoreCase)}");
Console.WriteLine($"InvariantCulture IndexOf null char {"test".IndexOf("\0",StringComparison.InvariantCulture)}");
Console.WriteLine($"InvariantCultureIgnoreCase IndexOf null char {"test".IndexOf("\0",StringComparison.InvariantCultureIgnoreCase)}");
和
Console.WriteLine($"Ordinal Contains null char {"test".Contains("\0test",StringComparison.Ordinal)}");
Console.WriteLine($"OrdinalIgnoreCase Contains null char {"test".Contains("\0test",StringComparison.OrdinalIgnoreCase)}");
Console.WriteLine($"CurrentCulture Contains null char {"test".Contains("\0test",StringComparison.CurrentCulture)}");
Console.WriteLine($"CurrentCultureIgnoreCase Contains null char {"test".Contains("\0test",StringComparison.CurrentCultureIgnoreCase)}");
Console.WriteLine($"InvariantCulture Contains null char {"test".Contains("\0test",StringComparison.InvariantCulture)}");
Console.WriteLine($"InvariantCultureIgnoreCase Contains null char {"test".Contains("\0test",StringComparison.Ordinal)}");
Console.WriteLine($"OrdinalIgnoreCase IndexOf null char {"test".IndexOf("\0test",StringComparison.OrdinalIgnoreCase)}");
Console.WriteLine($"CurrentCulture IndexOf null char {"test".IndexOf("\0test",StringComparison.CurrentCulture)}");
Console.WriteLine($"CurrentCultureIgnoreCase IndexOf null char {"test".IndexOf("\0test",StringComparison.CurrentCultureIgnoreCase)}");
Console.WriteLine($"InvariantCulture IndexOf null char {"test".IndexOf("\0test",StringComparison.InvariantCulture)}");
Console.WriteLine($"InvariantCultureIgnoreCase IndexOf null char {"test".IndexOf("\0test",StringComparison.InvariantCultureIgnoreCase)}");
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。