如何解决python中的重复数据删除库 - 日志文件问题
我在使用重复数据删除创建日志文件时遇到了一些问题: 这是我用来创建日志文件的语法:
import datetime
import sys
global log_log_file
def writeErrorLogMessage(message):
execution_log_line=str(datetime.datetime.now())+',- ERROR,'+message+". The process was stopped\n"
log_log_file.write(execution_log_line)
log_log_file.flush()
log_log_file.close()
sys.exit()
def writeInfoLogMessage(message):
execution_log_line=str(datetime.datetime.now())+',- '+message+".\n"
log_log_file.write(execution_log_line)
log_log_file.flush()
当我开始聚类过程时:
clustered_dupes = deduper.partition(data_d,threshold=th)
它会随机创建一个新的日志文件。 例如: 我启动代码并创建 logfile1 当涉及到集群时,它会创建 logfile2 logfile3 logfile4 logfile5 和 logfile6 但那些不是原始日志文件的副本,它们只包含实际文件导入之前的日志(因此它们排除了第一次检查和聚类之间的代码块) 当集群结束时,继续更新的文件是 logfile1,而不是 logfile6,后者是最后一个创建的文件。 所以以某种方式打开和关闭了这些文件(我在代码的最后一行关闭了日志文件,很奇怪,新创建的文件跳过了一大块代码) 我认为也许聚类使用了代码并再次执行它但不是作为主要的,所以它跳过了所有
if __name__='__main__'
代码。我在 deduper.clustering 下查找代码,但是当我使用 print(dedupe.file) 时,重复数据删除的目录不包含重复数据删除程序或分区。所以它可能会想起另一个我不知道如何命名的文件模块 我怎样才能避免这种情况? 非常感谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。