微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

mysql – 哪种数据库技术适用于大型结构化数据?

场景:认为你在200个表中有90TB的文本.这是结构化的相关数据.比较dbpedia只有更多的数据.任何真正的关系,分布式和高性能数据库都可以完成这项工作.不要期望与社交网络一样多的更新,但是大约500个读取/ s 20updates / s但是除了那些之外需要的主要功能是高速运行对数据库的大分析,因为数据应该通过apache mahout等机器学习进行重新设计和改进不断.

现在第一个问题是,哪些数据库技术开始(或等待它们被重新启动)首先使用相对较少的网络访问者维护所有数据,但对分析/机器学习的快速运行需求很高?第二,为了特殊的特殊目的而跟踪哪些其他数据库,这些数据库可能会发生,哪些特定目的可能会从列表中删除,或者成对出现只应该应用一个(/更好)的数据库.

Cloudera/Brisk (Cassandra,Hive)
MysqL(cluster), mariadb
Berkeley DB
drizzle, nimbusdb,
scidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)
mongodb
datadraw
neo4j

解决方法:

But main feature required besides those is running big analyses on the database in maximum speed

所以你现在所需要的只是90TB的内存而且你已经设置好了. “最大”速度是一个非常相对的概念.

I have got about 90TB of text in a ~200 tables. This is structured related data. Any true relational distributed and per formant database would do the job.

什么是“真正的关系分布式数据库”?

让我们翻看一下.假设你有90台服务器,每台服务器都有1TB的数据.您计划在200个表和90个服务器之间执行连接的计划是什么?

通常,跨服务器连接,不能很好地扩展.尝试在90台服务器上运行连接可能会扩展得更少.分区200个表是很多工作.

which other databases to keep track of generally in this context and which to drop off the list

好的,所以这里有很多后续问题:

>你现在在跑什么?
>你的痛点是什么?
>你真的打算放入新系统吗?
>是否有一个较小的子系统可以先测试?
>如果您有200个表,那么您运行了多少个不同的查询?成千上万的?
>您打算如何测试查询是否正常运行?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐