技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Java大文本并行计算实现过程解析

时间：2022-09-23分类：Java作者：编程之家

这篇文章主要介绍了Java大文本并行计算如何实现,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

简单提高文本读取效率，使用BufferedReader是个不错的选择。速度最快的方法是MappedByteBuffer，但是，相比BufferedReader而言，效果不是非常明显。也就是说，后者虽然快，但也快的有限（不要抱有性能提升几倍的幻想）。

对于大文本的读取，性能瓶颈主要在IO，read占时间多是正常的，硬盘本身就不快，读入内存后还要转成对象，都比较耗时间。

想要提速应当用并行的办法，用多线程同时读取和处理数据，但Java写多线程程序很麻烦，并行分段读同一个文件时还要考虑调整边界，也比较麻烦。

比如要这么个场景：分组汇总每个客户的销售额，部分源数据如下：

O_ORDERKEY O_CUSTKEY O_ORDERDATE O_TOTALPRICE 10262 RATTC 1996-07-22 14487.0 10263 ERNSH 1996-07-23 43818.0 10264 FOLKO 2007-07-24 1101.0 10265 BLONP 1996-07-25 5528.0 10266 WARTH 1996-07-26 7719.0 10267 FRANK 1996-07-29 20858.0 10268 GROSR 1996-07-30 19887.0 10269 WHITC 1996-07-31 456.0 10270 WARTH 1996-08-01 13654.0 ...

期望的结果：

Java部分多线程代码大概要写成这样：

... final int DOWN_THREAD_NUM = 8; CountDownLatch donesignal = new CountDownLatch(DOWN_THREAD_NUM); RandomAccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM]; try{ long length = new File(OUT_FILE_NAME).length(); long numPerThred = length / DOWN_THREAD_NUM; long left = length % DOWN_THREAD_NUM; for (int i = 0; i

如果有集算器就简单多了，它对Java的多线程进行了封装，提供了对大文件分段并行的功能，写起来容易多了，对人员要求也低。比如上面问题，2行就搞定了(集算器内置了并行选项@m，不设置并行数，默认按核数做为并行数)：

=file("/workspace/orders.txt").cursor@mt()

=A1.groups(O_CUSTKEY;sum(O_TOTALPRICE):AMOUNT)

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：用Java代码实现栈数据结构的基本方下一篇：如何在Spring中自定义scope的方法示

相关推荐

深入剖析HashMap：理解Hash、底层实现与扩容机制

HashMap是Java中最常用的集合类框架，也是Java语言中非常典型的数据结构，而HashSet和HashMap者在Java里有着相同的实现，前者仅仅是对后者做了一层包装，也就是说HashSet里面有一个HashMap(适配器模式)。因此了解HashMap源码也就了解HashSet了介绍 K

作者：seven97_top 时间：2024-10-15

为什么在EffectiveJava中建议用EnumSet替代位字段，以及使用EnumMap替换序数索引

在EffectiveJava中的第 36条中建议用 EnumSet 替代位字段，在第37条中建议用EnumMap替换序数索引，为什么？ EnumSet 在EffectiveJava中的第 36条中建议用 EnumSet 替代位字段 36、用 EnumSet替代位字段如果枚举类型的元素主要在

作者：seven97_top 时间：2024-10-15

注解的优点？元注解？

介绍注解是JDK1.5版本开始引入的一个特性，用于对代码进行说明，可以对包、类、接口、字段、方法参数、局部变量等进行注解。主要作用如下：编写文档——通过注解中标识的元数据可以生成doc文档，这是最常见的，也是java 最早提供的注解。常用的有@param @return 等代码分析——通过注解

作者：seven97_top 时间：2024-10-15

Linkedlist源码详解

介绍 LinkedList同时实现了List接口和Deque接口，也就是说它既可以看作一个顺序容器，又可以看作一个队列(Queue)，同时又可以看作一个栈(Stack)。这样看来，LinkedList简直就是个全能冠军。当你需要使用栈或者队列时，可以考虑使用LinkedList，一方面是因为Java

作者：seven97_top 时间：2024-10-15

TreeMap源码详解—彻底搞懂红黑树的平衡操作

介绍 TreeSet和TreeMap在Java里有着相同的实现，前者仅仅是对后者做了一层包装，也就是说TreeSet里面有一个TreeMap(适配器模式)。 Java TreeMap实现了SortedMap接口，也就是说会按照key的大小顺序对Map中的元素进行排序，key大小的评判可以通过其本身的

作者：seven97_top 时间：2024-10-15

深入理解ConcurrentHashMap

HashMap为什么线程不安全 put的不安全由于多线程对HashMap进行put操作，调用了HashMap的putVal()，具体原因：假设两个线程A、B都在进行put操作，并且hash函数计算出的插入下标是相同的；当线程A执行完第六行由于时间片耗尽导致被挂起，而线程B得到时间片后在该下标处

作者：seven97_top 时间：2024-10-15

枚举实现原理

枚举的定义在JDK1.5之前，我们要是想定义一些有关常量的内容，例如定义几个常量，表示从周一到周末，一般都是在一个类，或者一个接口中，写类似于如下代码： public class WeekDayConstant { public static final int MONDAY = 0; publi

作者：seven97_top 时间：2024-10-15

为什么Java已经不推荐使用Stack了？

为什么不推荐使用Stack Java已不推荐使用Stack，而是推荐使用更高效的ArrayDeque 为什么不推荐使用性能低：是因为 Stack 继承自 Vector，而 Vector 在每个方法中都加了锁。由于需要兼容老的项目，很难在原有的基础上进行优化，因此 Vector 就被淘汰掉了，使用

作者：seven97_top 时间：2024-10-15

注解是如何实现的？

注解是否支持继承不支持继承不能使用关键字extends来继承某个@interface，但注解在编译后，编译器会自动继承java.lang.annotation.Annotation接口. 虽然反编译后发现注解继承了Annotation接口，但即使Java的接口可以实现多继承，但定义注解时依然无法

作者：seven97_top 时间：2024-10-15

一篇文章讲清楚Java中的反射

介绍每个类都有一个 Class 对象，包含了与类有关的信息。当编译一个新类时，会产生一个同名的 .class 文件，该文件内容保存着 Class 对象。类加载相当于 Class 对象的加载。类在第一次使用时才动态加载到 JVM 中，可以使用 Class.forName("com.mys

作者：seven97_top 时间：2024-10-15

小编推荐

苹果市值2025年有望达4万亿美元