技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

数据库 – Spark：运行InputFormat作为单例

时间：2020-06-02分类：MsSQL作者：编程之家

我正在尝试将一个键值数据库集成到Spark,并提出一些问题.
我是Spark初学者,读了很多,运行一些样本,但也没有
复杂.

场景：

我正在使用一个小的hdfs集群将传入的消息存储在数据库中.
集群有5个节点,数据分为5个分区.每
分区存储在单独的数据库文件中.因此,每个节点可以处理
它自己分区的数据.

问题：

数据库软件的接口是基于JNI,数据库本身就是
由于技术原因,数据库软件可以维护
一次只有一个活动连接.只能有一个JVM进程
连接到数据库.

由于这个限制,读取和写入数据库必须走
通过相同的JVM进程.

(背景信息：数据库嵌入到进程中,它是基于文件的,
一次只能有一个进程打开它.我可以让它分开运行
过程,但是由于IPC开销会慢一些.我的应用程序
将执行许多全表扫描.额外的写入将被批量化
不是时间关键.)

解决方案：

我在脑海里有几个想法如何解决这个问题,但我不知道他们是否工作
好好跟Spark.

>也许有可能神奇地配置Spark只有一个我的实例
每个节点专有的InputFormat.
>如果我的第一次使用InputFormat,它将启动一个单独的线程
这将创建数据库连接.此线程将继续
作为一个守护进程,只要JVM生活就会活下去.这只会奏效
如果每个节点只有一个JVM.如果Spark启动了多个JVM
相同的节点然后每个都将启动自己的数据库线程,这不会
工作.
>将我的数据库连接移动到每个节点的单独的JVM进程,我的
InputFormat然后使用IPC连接到这个进程.正如我所说,我想避免这种情况.
或者也许你有另一个更好的主意？

我最喜欢的解决方案是#1,紧随其后的是#2.

感谢任何评论和答案！

解决方法

你是否想过排队(缓冲区),然后使用火花流排队并使用您的输出格式进行写入.

原文地址：https://www.jb51.cc/mssql/81963.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：SELECT DISTINCT在一列,返回多个其下一篇：数据库 – DB触发器的命名约定

相关推荐

SQL Server CASE WHEN ... THEN ... ELSE ... END

SELECT a.*,b.dp_name,c.pa_name,fm_name=(CASE WHEN a.fm_no='LJCG001H' THEN dbo.ELTPNAME(a.fw_nu) ELSE d.fm_name END),e.fw_state_nm,f.fw_rmk_nm

作者：编程之家时间：2024-07-26

SQL Server 数据表栏位新增

if not exists(select name from syscolumns where name='tod_no' and id=object_id('iebo09d12')) alter table iebo09d12 add tod_no varchar(

作者：编程之家时间：2024-07-26

SQL Server Left join

select a.*,pano=a.pa_no,b.pa_name,f.dp_name,e.fw_state_nm,g.fa_name from LJSS007H a (nolock) Left join LJPA002H b (nolock) On a.pa_no =b.pa_no Left jo

作者：编程之家时间：2024-07-26

SQL Server 2019 中设置定时自动重启

要在 SQL Server 2019 中设置定时自动重启，可以使用 Windows 任务计划程序。下面是详细的步骤：步骤一：创建批处理文件打开记事本。输入以下内容： net stop "SQL Server (MSSQLSERVER)" net start "SQ

作者：编程之家时间：2024-07-26

SQL Server 事务日志已满

您收到的错误消息表明数据库 'EastRiver' 的事务日志已满，导致数据库操作失败。要解决这个问题，可以按照以下步骤操作： 1. 备份事务日志首先，备份事务日志以释放空间： BACKUP LOG [EastRiver] TO DISK = N'C:\Backup\East

作者：编程之家时间：2024-07-26

SQL SERVER PROFILER

首先我需要查询出需要使用SQL Server Profiler跟踪的数据库标识ID，若不知道怎么查询数据库的标识ID, 打开SQL Server management studio，点击工具。选择SQL Server Profiler。登录，登录成功后，如果有个默认弹窗，先取消新建追踪命名

作者：编程之家时间：2024-07-25

SQL Server:User, group, or role 'iemis' already exists in the current database.

--最新的解决方法 --先创建用户帐户，不进行授权，然后通过下面的SQL语句将该用户帐户关联至对应的数据库用户。优点是避免了重新授权的操作。 USE tempdbEXEC sp_change_users_login 'Update_One', 'iemis', &#3

作者：编程之家时间：2024-07-25

SQL Server2019 新增字段并设置默认值

命令： ALTER TABLE 表名 add 列名数据类型 default 默认值 not null 例如： ALTER TABLE LJEL005H add el_req int default 15 not null

作者：编程之家时间：2024-07-25

SQL 尚未定义空闲 CPU 条件

作者：编程之家时间：2024-07-25

sql 流水号的递增

declare @i int set @i=340 while @i<415 begin set @i=@iʱ insert into LJWK007H select '2024','28','9110','3PTSD621000000

作者：编程之家时间：2024-07-25

小编推荐

苹果市值2025年有望达4万亿美元