技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Sqoop从Oracle导入到Hive(小坑)

时间：2020-06-21分类：Oracle作者：编程之家

使用sqoop从oracel导入数据到hive数据错位，第一个想到的问题就是可能分隔符造成的，

默认使用'\001'来切分字段，使用'\n'来切分行，这一切看起来挺好，但是如果导入的内容中包含了'\001'或者'\n'就会导致数据错位的问题。这个问题人家sqoop早就想到啦，所以导入数据到hive的时候就支持一个命令参数--hive-drop-import-delims，这个命令参数是干嘛的呢，

官方解释就是：去除字段中所有的\n,\r\01等特殊字符，

OK，这不正是想要的么，万事大吉，好东西，以为高枕无忧了。

可是问题还是来了，数据错位了导致记录数几乎翻倍，这原因很明显呀，数据错位了，可是--hive-drop-import-delims不是已经把特殊字符给去掉了么，怎么还会和'\001','\n'冲突呢，

查看hive表的数据原文件，发现字段分隔很正常(即使用\001都分隔正确了)，但是\n确实存在，很多换行呀，字段内容的换行居然没去掉？这个--hive-drop-import-delims不是坑么，

好吧，这个冲突暂且放下，既然\n没有删掉，那么行记录就不用\n了改用\002吧

想象是好的！

一执行直接报异常：hive目前仅支持\n分隔行记录(坑爹！！！)

最终，找呀找，发现原来那些\n没有去除的字段是CLOB字段。--hive-drop-import-delims对CLOB字段不起作用。

找到原因了解决起来就简单了：

首先解决方案是直接在sql语句中将 clob字段使用to_char函数，然后使用replace函数将所有的换行字符替换 replace(to_char(FIELD),char(10),' ') 注意：oracle中换行使用char(10)，就这样解决了问题！

但是之后用相同方法处理大字段的clob时新问题又来了，大体意思就是to_char函数支持clob长度为4000以下的转换，如果clob内容长度超过4000就报缓冲区不足！（坑！）

后来找呀找，发现了这么个参数--map-column-java

意思就是将sql中的字段类型转换成JAVA 的string类型，那么我所需要的就是将sql中的clob字段转换成String类型，这样--hive-drop-import-delims这个参数就可以对该字段起作用了，可以将\n去除了。

实际导入语句如下：

原文地址：https://www.jb51.cc/oracle/211536.html

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Oracle学习(二)：编写简单SELECT语下一篇：Oracle-Listener log解读

相关推荐

java oracle 结果集

Java Oracle 结果集是Java语言中处理数据库查询结果的一种方式。通常情况下，Java程序会通过JDBC连接Oracle数据库并执行一条查询语句，返回一个ResultSet结果集。ResultSet是一个行集，包含了查询语句的返回结果。在

作者：编程之家时间：2023-08-20

java aes oracle aes

Java AES和Oracle AES是现代加密技术中最常使用的两种AES加密。在计算机通信领域，AES加密算法是一种十分重要的保密技术，被广泛应用于银行、保险、互联网电子支付等重要场合。

作者：编程之家时间：2023-08-20

java oracle11g 驱动

Java是一种广泛应用的编程语言，具备可靠性、安全性、跨平台性等优势，被广泛应用于企业级应用开发。而Oracle11g是一个强大的关系型数据库，由于其优秀的可靠性、安全性和扩展性，已经被广泛应用于企业级应用中。Jav

作者：编程之家时间：2023-08-20

java int oracle

随着移动互联网的发展，抽奖活动成为了营销活动中不可或缺的组成部分。为了满足移动端用户的需求，我们可以使用jQuery开发移动端大转盘抽奖活动。

作者：编程之家时间：2023-08-20

java oracle对照

Java和Oracle都是在计算机领域应用非常广泛的技术，他们经常被用来搭建高效的软件系统。Java是一种面向对象的编程语言，而Oracle是一种关系型数据库管理系统。Java 和Oracle在应用中的联系非常紧密，它们能够通过相互

作者：编程之家时间：2023-08-20

java oracle 参数

Java 是一门非常流行的编程语言，它可以运行于各种操作系统上，而 Oracle 是一个广泛使用的数据库软件。在 Java 对 Oracle 进行操作时，需要使用 Oracle 参数来确保程序正确工作。本文将从 Oracle 参数的定义、分类

作者：编程之家时间：2023-08-20

java oracle数据库

随着电子竞技的兴起，越来越多的人开始慕名玩起了王者荣耀。而对于Python爱好者来说，这款游戏也有着很大的吸引力。因为Python可以帮助我们获取并处理游戏数据，从而获得更好的游戏体验。

作者：编程之家时间：2023-08-20

java oracle integer

Java与Oracle在数据处理方面都有着非常重要的地位，而在Java和Oracle的结合中，Integer类型则起到了不可替代的作用。Integer类型是Java中一个非常常用的数据类型，它可以表示范围在-2147483648到2147483647之间的整数

作者：编程之家时间：2023-08-20

JAVA oracle odbc驱动

如今，JavaScript已经成为了web开发的必备技能之一，而IE浏览器也是众多开发者最常用的浏览器，那么，如何启用IE浏览器的JavaScript呢？

作者：编程之家时间：2023-08-20

Java与Oracle是当今软件行业中广泛使用的两个技术。而SP（Stored Procedure）是Oracle数据库中存储过程的组件，可以在Java中调用Oracle数据库中的SP。在开发过程中，Java和Oracle的组合可以方便处理大规模的数据和建

作者：编程之家时间：2023-08-20

小编推荐

苹果市值2025年有望达4万亿美元