技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

sql – crawler / scraper的数据库是什么？

时间：2020-04-12分类：MsSQL作者：编程之家

我目前正在研究用于我正在进行的项目的数据库.希望你们能给我一些提示.

该项目是一个自动网络爬虫,可根据用户的请求检查网站,在某些情况下擦除数据,并创建已完成内容的日志文件.

要求：

>只有少数几列的表格;预定义列没有问题
>模型之间没有过于复杂的关联
>大量的约会和基于时间的查询
>由于日志记录,数据库将迅速增长并占用大量空间
>应该能够扩展到多个服务器
>字段主要包含ids(int),字符串(最多约200-500个字符)和unix时间戳
>两种不同类型的服务器将同时直接读取/写入数据：

>一个(或更高版本)rails应用程序,它接受用户输入并根据请求显示结果
>一个(或更高版本)Node.js服务器,用作执行爬虫/刮刀.它将有足够的负载连续运行,每秒进行数十次数据库查询.

我假设它既不是图形数据库(没有复杂的关联),也不是基于内存的键/值存储(缓存中容纳的数据太多).对于我能找到的其他类型的数据库,我仍然处于困境之中,每个数据库似乎都有它的优点.

那么,专业人士的任何建议我应该如何决定？

谢谢.

解决方法

我同意弗拉基米尔的观点,你会想要考虑这个场景的基于文档的数据库.我最熟悉MongoDB.我在这里使用它的原因如下：

>“只有少数几列表”的“架构要求”非常适合MongoDB的Nosql特性.>与上面的“节点之间没有过于复杂的关联”相同 – 您将需要决定是否更喜欢嵌套文档或使用dbref(我更喜欢前者)>大量基于时间的数据(以及其他扩展要求) – MongoDB通过分片或分区可以很好地扩展>读/写访问 – 这就是为什么我推荐MongoDB而不是像Hadoop这样的东西.交互式查询要求最好由Hadoop样式的商店以外的其他东西来满足,因为这种类型的存储是为批量(而不是交互式查询)要求而设计的.

原文地址：https://www.jb51.cc/mssql/78513.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：sql-server – 在SSIS中选择忽略失下一篇：sql – 从条件INSERT中获取Id

相关推荐

SQL Server CASE WHEN ... THEN ... ELSE ... END

SELECT a.*,b.dp_name,c.pa_name,fm_name=(CASE WHEN a.fm_no='LJCG001H' THEN dbo.ELTPNAME(a.fw_nu) ELSE d.fm_name END),e.fw_state_nm,f.fw_rmk_nm

作者：编程之家时间：2024-07-26

SQL Server 数据表栏位新增

if not exists(select name from syscolumns where name='tod_no' and id=object_id('iebo09d12')) alter table iebo09d12 add tod_no varchar(

作者：编程之家时间：2024-07-26

SQL Server Left join

select a.*,pano=a.pa_no,b.pa_name,f.dp_name,e.fw_state_nm,g.fa_name from LJSS007H a (nolock) Left join LJPA002H b (nolock) On a.pa_no =b.pa_no Left jo

作者：编程之家时间：2024-07-26

SQL Server 2019 中设置定时自动重启

要在 SQL Server 2019 中设置定时自动重启，可以使用 Windows 任务计划程序。下面是详细的步骤：步骤一：创建批处理文件打开记事本。输入以下内容： net stop "SQL Server (MSSQLSERVER)" net start "SQ

作者：编程之家时间：2024-07-26

SQL Server 事务日志已满

您收到的错误消息表明数据库 'EastRiver' 的事务日志已满，导致数据库操作失败。要解决这个问题，可以按照以下步骤操作： 1. 备份事务日志首先，备份事务日志以释放空间： BACKUP LOG [EastRiver] TO DISK = N'C:\Backup\East

作者：编程之家时间：2024-07-26

SQL SERVER PROFILER

首先我需要查询出需要使用SQL Server Profiler跟踪的数据库标识ID，若不知道怎么查询数据库的标识ID, 打开SQL Server management studio，点击工具。选择SQL Server Profiler。登录，登录成功后，如果有个默认弹窗，先取消新建追踪命名

作者：编程之家时间：2024-07-25

SQL Server:User, group, or role 'iemis' already exists in the current database.

--最新的解决方法 --先创建用户帐户，不进行授权，然后通过下面的SQL语句将该用户帐户关联至对应的数据库用户。优点是避免了重新授权的操作。 USE tempdbEXEC sp_change_users_login 'Update_One', 'iemis', &#3

作者：编程之家时间：2024-07-25

SQL Server2019 新增字段并设置默认值

命令： ALTER TABLE 表名 add 列名数据类型 default 默认值 not null 例如： ALTER TABLE LJEL005H add el_req int default 15 not null

作者：编程之家时间：2024-07-25

SQL 尚未定义空闲 CPU 条件

作者：编程之家时间：2024-07-25

sql 流水号的递增

declare @i int set @i=340 while @i<415 begin set @i=@iʱ insert into LJWK007H select '2024','28','9110','3PTSD621000000

作者：编程之家时间：2024-07-25

小编推荐

苹果市值2025年有望达4万亿美元