如何解决添加代码以打印 censusgeocode 包中的数据行
我正在使用我使用 pip 安装的包 censusgeocode
对我使用美国人口普查局 API 的一堆地址进行地理编码;具体来说,我正在使用批处理地址功能。
因为 API 对每个批次的地址限制为 10,000 个,而我的数据集有几十万行,所以我首先编写了一个函数,将数据集拆分为 N 个文件,我可以循环并输入批处理地理编码 API。自然运行需要很长时间,我不介意这个,因为我只需要运行一次。但是,我现在已经运行了两次(每次大约 16 小时)并且它在同一点中断,错误是我在我的 N 个数据集中的一个数据集中缺少一行中的数据(特别是它说 {{1 }}原文如此)。我已经检查了文件,我非常确信没有丢失行。
我想要做的是向 censusgeocode 包添加一些代码,该包打印包尝试进行地理编码的行,包括 ID 号(根据定义,任何行都不能为空,即使所有其他列都是) .不过,我完全不知道如何做到这一点。
您可以在我的代码下方看到,其中包括将数据集拆分为 N 个 CSV 文件,然后调用 censusgeocode 批处理函数。
Error: line contains NUL
有谁知道是否可以将一些代码添加到 import pandas as pd
import numpy as np
import os
import math
import censusgeocode
# For tracking progress
import time
from IPython.display import display,clear_output
df = pd.read_csv('dta/For_geocoding_mv.csv')
def split_dataframe(df,chunk_size = 10000):
chunks = list()
num_chunks = math.ceil(len(df) / chunk_size)
for i in range(num_chunks):
chunks.append(df[i*chunk_size:(i+1)*chunk_size])
return chunks
!rmdir 'dta/batchfiles/'
!mkdir 'dta/batchfiles/'
splits = split_dataframe(df,chunk_size=5000)
for i in range(len(splits)):
splits[i].to_csv('dta/batchfiles/split_' + str(i) + '.csv',index=False,header=False)
dfs = []
start_time = time.perf_counter()
cg = censusgeocode.CensusGeocode()
for i in range(len(splits)):
k = cg.addressbatch('dta/batchfiles/split_' + str(i) + '.csv')
dfs.append(pd.DataFrame(k))
clear_output(wait=True)
print("Current page: " + str(i) + ",Run time:",round((time.perf_counter() - start_time)/60,2),"minutes")
df = pd.concat(dfs)
包中,以便打印当前尝试进行地理编码的行?如果是这样,我该怎么做?
或者,如果更简单,我很乐意跳过 API 似乎有问题的这一行。因此,如果有一种方法可以在地理编码周围添加 geocode
、try:
,这样它就会移动到下一行,那也太棒了。
提前致谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。