如何确定在单个节点上运行的Spark的最佳设置？

我有55 GB的数据需要处理。我在具有32核和180GB RAM（无群集）的单台计算机上运行Spark-shell。由于它是单个节点，因此驱动程序和工作程序都驻留在同一JVM进程中，默认情况下使用514 MB。

我将spark.driver.memory设置为170G

spark-shell  --driver-memory 170g

我正在执行地图操作，然后执行group_by，然后进行agg并写入镶木地板文件。而且仍然停留在

是否有通过更改spark.executor.memory或更改使用的内核数而不是使用Master [*]来优化性能的方法？如何确定给定任务和数据大小的最佳设置？我应该精确调整--conf文件中的哪些值？

简而言之，如何强制spark以最佳方式使用所有可用资源？

如果在单台计算机上运行，则更改spark.executor.memory不会生效。您需要有一个实际的集群。您可以向集群添加更多节点，以减少分区数量并加快处理速度。