如何解决我们如何借助 AWS Glue PySpark 中的 Cobol 布局/副本读取 MainFrame 文件
我在 s3 中有大型机文件,我必须在 AWS Glue Pyspark 中读取数据。 对于大型机文件,我们将创建足以使用 serde 的外部表。列名将使用提供的 cobol 布局自动创建。大型机文件格式 FB 或 VB 需要使用输入格式如
在 DDL 中指定例如:
ADD JAR |path|/CobolSerde.jar;
CREATE TABLE Cobol2Hive
ROW FORMAT SERDE 'com.savy3.hadoop.hive.serde3.cobol.CobolSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.mapred.FixedLengthInputFormat'\
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat'\
LOCATION '/home/hduser/hive/warehouse/ram.db/lolol',TBLPROPERTIES ('cobol.layout.url'='-----/cobol_layout/maincobol.copybook','fb.length'='450');\
在创建的这个表上,我们通过 Spark SQL 读取数据并在数据上应用业务逻辑。
任何人都可以帮助如何在 AWS Glue 的帮助下有效地复制相同的解决方案吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。