exist-db – 开源XML数据库的可伸缩性

我们正在寻找一种报告应用程序,该应用程序报告存储在大量 XML 文件中的数据. ~3,000,000个文件,大小从7KB到5MB(每个文件符合相同的模式).我猜大约有200GB的XML.我正在研究一些开源XML数据库(Sedna,BaseX和eXist-db),我不确定这些系统的扩展程度如何,我读了这三个数据库 here的比较.这是我关注的问题.可伸缩性起源于.

关于我们想要做的事情的一些细节是：我们不会更改任何XML文件中的数据,并且每天都会添加新文件.由于我们关注报告查询性能对我们很重要,因此添加和索引新文件所需的时间对我们来说不是一个高优先级.

我想知道是否有人有类似规模使用这些系统的经验？我查看了BaseX statistics page,看到了一些相当大的XML实例,但没有提到性能.

我们不需要开源产品,MarkLogic系统看起来很适合这个账单,但我很好奇开源产品做了些什么.

解决方法

我认为用“是”或“否”回答你的问题是不可能的.从你给出的小细节中说出关于表现的任何事情都是不可能的.

性能通常基于您要执行的查询和数据分发.更不用说,你认为什么是“可接受的”.

在paper you referenced中,值得注意的是,他们声明他们无法在eXist 2.2预览版中获得新的范围索引.当然没有这些,他们会看到更糟糕的表现.最后他们说他们会选择Sedna,因为他们可以克服Sedna的问题,我不清楚为什么会这样,即他们是否有可以与Sedna合作的C开发者,但他们没有Java开发者可以使用eXist或BaseX吗？最后,他们用于测试eXist和BaseX的Java版本相当陈旧,下一版本的eXist(3.0)只支持Java 8及更新版本.

如果您无法将200GB数据存储到BaseX,eXist或Sedna中,但是如果不知道您的数据和要执行的查询类型,我会感到惊讶,我无法对查询性能发表评论.

我认为你最好对其中一个或全部进行一次小型试验,其方式与该链接文章没有什么不同.

exist-db – 开源XML数据库的可伸缩性

解决方法

相关推荐