如何解决Mapreduce 程序输出部分文件
我正在运行一个 MapReduce 作业,该作业将只有 Mapper 阶段(无 Reducers)的 JSON 文件输出到 HDFS,处理大约 100gb 的输入文件。大部分工作运行良好,直到我找到一些部分写入的输出文件。 MapReduce 作业没有抛出任何异常。
预期输出:
{"id":1,"first_name":"Stephanie","last_name":"Hayesman","email":"shayesman0@behance.net","gender":"Polygender","ip_address":"132.234.151.37"}
{"id":2,"first_name":"Tricia","last_name":"Klaus","email":"tklaus1@acquirethisname.com","gender":"Genderfluid","ip_address":"10.213.69.232"}
{"id":3,"first_name":"Marta","last_name":"Castanares","email":"mcastanares2@dot.gov","gender":"Genderqueer","ip_address":"168.1.204.80"}
{"id":4,"first_name":"Stormie","last_name":"MacCleod","email":"smaccleod3@nsw.gov.au","gender":"Bigender","ip_address":"64.11.123.125"}
{"id":5,"first_name":"Ilyse","last_name":"Gudahy","email":"igudahy4@canalblog.com","gender":"Female","ip_address":"22.146.172.113"}
当前输出:
{"id":1,"last_name":"Castanar',
在极少数情况下 (6/250) 运行 100gb 时会出现这种切碎的输出文件,如果我使用相同的输入再次运行作业,则会出现随机文件。
任何有关为什么会发生这种情况的意见表示赞赏。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。