我们正在寻找一种报告应用程序,该应用程序报告存储在大量
XML文件中的数据. ~3,000,000个文件,大小从7KB到5MB(每个文件符合相同的模式).我猜大约有200GB的XML.我正在研究一些开源XML数据库(Sedna,BaseX和eXist-db),我不确定这些系统的扩展程度如何,我读了这三个数据库
here的比较.这是我关注的问题.可伸缩性起源于.
关于我们想要做的事情的一些细节是:我们不会更改任何XML文件中的数据,并且每天都会添加新文件.由于我们关注报告查询性能对我们很重要,因此添加和索引新文件所需的时间对我们来说不是一个高优先级.
我想知道是否有人有类似规模使用这些系统的经验?我查看了BaseX statistics page,看到了一些相当大的XML实例,但没有提到性能.
我们不需要开源产品,MarkLogic系统看起来很适合这个账单,但我很好奇开源产品做了些什么.
解决方法
我认为用“是”或“否”回答你的问题是不可能的.从你给出的小细节中说出关于表现的任何事情都是不可能的.
性能通常基于您要执行的查询和数据分发.更不用说,你认为什么是“可接受的”.
在paper you referenced中,值得注意的是,他们声明他们无法在eXist 2.2预览版中获得新的范围索引.当然没有这些,他们会看到更糟糕的表现.最后他们说他们会选择Sedna,因为他们可以克服Sedna的问题,我不清楚为什么会这样,即他们是否有可以与Sedna合作的C开发者,但他们没有Java开发者可以使用eXist或BaseX吗?最后,他们用于测试eXist和BaseX的Java版本相当陈旧,下一版本的eXist(3.0)只支持Java 8及更新版本.
如果您无法将200GB数据存储到BaseX,eXist或Sedna中,但是如果不知道您的数据和要执行的查询类型,我会感到惊讶,我无法对查询性能发表评论.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。