如何解决如何确定我的 AWS Glue 自定义 CSV 分类器是否正常工作?
我正在使用 AWS Glue 对数据进行编目(并有望最终转换)。我正在尝试为爬虫创建自定义 CSV 分类器,以便我可以向表提供一组已知的列标题。数据采用 TSV(制表符分隔值)格式,文件本身没有标题行。数据中没有“引号”字符,但有 1 或 2 列在数据中使用双引号,因此我已在分类器中指出它应该使用单引号 ('
)。为确保我从干净开始,我删除了 AWS Glue 目录表,然后在附加分类器的情况下运行爬虫。当我随后检查创建的表时,它将 csv
列为 classification
,并且分类器中指定的列名称与表无关(而是标记为 col0
、{ {1}}、col1
、col2
等)。此外,在检查表中的几行时,似乎与列关联的数据与原始数据本身使用的列顺序不同,我可以确认这一点,因为我在本地打开了原始数据的副本在我的电脑上。
AWS Glue Classifier 文档表明,爬网程序将尝试按照爬网程序定义中指定的顺序使用与爬网程序关联的自定义分类器,如果没有确定匹配 col3
,它将使用内置分类器。如果仍然找不到确定性为 1.0
的匹配项,则将使用确定性最高的分类器。
我的问题是:
- 如何确定我的自定义 CSV 分类器(我特别命名,例如为了参数
1.0
)是否被实际使用,或者它是否默认为内置 CSV 分类器?立> - 更重要的是,鉴于上述情况(已知列但与数据分开,并且在实际数据中使用双引号但没有引用值),如何让 Crawler 使用指定的列名表架构?
- 为什么我在目录中的数据似乎没有使用文件中指定的列顺序(即使是通用列名)?
- 如果可能的话,我如何使用
customClassifier
转换来重命名工作流的列(这对于我的情况就足够了)。?我需要这样做而不启用仅脚本模式(通过修改 AWS Glue Studio 工作流),并且不需要手动输入超过 200 列
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。