Python / Dill序列化哈希取决于导入的包？

如何解决Python / Dill序列化哈希取决于导入的包？

考虑以下代码：

from os.path import join
import dill
from tempfile import TemporaryDirectory
import hashlib

def filehash(path):
    with open(path,'rb') as f:
        return hashlib.sha256(f.read()).hexdigest()

def func(a,b):
    return a + b
    
with TemporaryDirectory() as td:
    temp = join(td,"func.tmp")
    with open(temp,"wb") as f:
        dill.dump(func,f)
    print(filehash(temp))

这会将一个简单的函数func()序列化到磁盘上，然后输出结果文件的哈希值。

现在，添加一些不会在第一行之前使用的包的import语句，例如import numpy并再次执行整个程序。现在文件哈希值有所不同。

有人可以告诉我为什么吗？

解决方法

当莳萝腌制一个功能时，它必须保存该功能可以访问的范围。因此，当您添加导入时，保存的内容也会更改，因为它包含了由导入更改的模块范围。

如果您不希望这样做，建议您将要莳萝的功能放在自己的模块中。这样，他们的模块作用域就不会包含不需要访问的任何内容。

我也建议不要依赖于产生相同莳萝的相同代码。