使用 Glue 将数据从 AWS EMR 加载到 Redshift 非常慢

如何解决使用 Glue 将数据从 AWS EMR 加载到 Redshift 非常慢

我正在尝试将数据从 AWS EMR（数据存储为 S3 和胶水目录用于 metastore）加载到 Redshift。

import sys
import boto3
from datetime import datetime,date
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from awsglue.context import glueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from pyspark.context import SparkContext
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.window import *
from pyspark.sql.functions import to_date
from pyspark.sql import sqlContext

glueContext = glueContext(SparkContext.getorCreate())
spark = glueContext.sparkSession
sc = spark.sparkContext
sqlContext = sqlContext(sc)

df = sqlContext.sql("Select * from classic_models.orderdetails  where insert_date >= '2021-01-01' and insert_date < '2021-01-02' ")
dynamic_df = DynamicFrame.fromDF(new_df,glueContext,"dynamic_df")
redshift_target_table = "classic_models.orderdetails"
pre_actions = f"Truncate table {redshift_target_table};"
redshift_connection_opts = {
    "database": "dev","dbtable": redshift_target_table,"aws_iam_role": "arn:aws:iam::*********","preactions": pre_actions
}
s3_temp_dir = datetime.Now().strftime("%Y-%m-%d_%H-%M-%s")
glueContext.write_dynamic_frame.from_jdbc_conf(
    frame = dynamic_df,catalog_connection = "redshift",connection_options = redshift_connection_opts,redshift_tmp_dir = "s3:/staging/orderdetails/%s/" % s3_temp_dir  #Need change
)

从 Hive 提取数据非常快，但将数据加载到 Redshift 需要很长时间。长我的意思是，如果我正在加载过去 10 天的数据，并且粘合工作需要 16 分钟才能完成，不到 1 分钟是从 Hive 中提取数据，其余的只是将数据加载到 Redshift。超过一半的 Hive 表列是 String 数据类型还有其他更好更快的方法吗？