如何解决使用 Dask cluster/Teradatasql 和 sqlalchemy 从 Teradata 读取大量数据
我需要从 teradata 中读取大量数据(大约 800M 条记录),我的代码可以很好地处理 100 万条记录。对于更大的集合,它需要时间来构建元数据。有人可以建议如何使它更快。下面是我用于我的应用程序的代码片段。
def get_partitions(num_partitions):
list_range =[]
initial_start=0
for i in range(num_partitions):
amp_range = 3240//num_partitions
start = (i*amp_range+1)*initial_start
end = (i+1)*amp_range
list_range.append((start,end))
initial_start = 1
return list_range
@delayed
def load(query,start,end,connString):
df = pd.read_sql(query.format(start,end),connString)
engine.dispose()
return df
connString = "teradatasql://{user}:{password}@{hostname}/?logmech={logmech}&encryptdata=true"
results = from_delayed([load(query,connString) for start,end in get_partitions(num_partitions)])
解决方法
构建时间可能用于查找表的元数据。这是通过获取第一个分区的整个并对其进行分析来完成的。
如果您预先知道 dtypes,例如所有列的 {col: dtype,...}
,或者从您限制为所需行数的单独查询中生成它,您最好要么明确指定它确保您拥有正确的类型:
meta = dask.compute(load(query,10,connString))
results = from_delayed(
[
load(query,start,end,connString) for start,end in
get_partitions(num_partitions)
],mete=meta.loc[:0,:] # zero-length version of table
)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。