如何解决用于列出包大小的 Conda 命令 注意事项
我想找出 conda 包的大小以删除巨大的和很少使用的包。我应该使用哪个 conda 命令来找出包大小?
conda list
将列出包但不显示包大小。
我欢迎其他方法来找出包大小。
我使用的是 Windows 10。
解决方法
挖掘 conda-meta
解决此问题的一种方法是为环境的 conda-meta/
目录中的每个包挖掘 JSON 元数据文件。列出了两种类型的尺寸:
- size - 压缩包的总压缩包大小
- size_in_bytes - 包内单个解压缩文件的大小
既然您似乎对包裹的总大小感兴趣,让我们做更简单的大小。这将使我们能够根据下载大小快速对软件包进行排名。
命令
## activate the environment of interest
conda activate foo
## search all the JSONs for '"size":'
grep '"size":' ${CONDA_PREFIX}/conda-meta/*.json |\
## sort result
sort -k3rn |\
## show only filename
sed 's/.*conda-meta\///g' |\
## print with columns
column -t
示例输出
jaxlib-0.1.67-py39h6e9494a_0.json: "size": 38576847,scipy-1.6.3-py39h056f1c0_0.json: "size": 19495906,python-3.9.4-h9133fd0_0_cpython.json: "size": 13160553,libopenblas-0.3.15-openmp_h5e1b9a4_1.json: "size": 9163719,numpy-1.20.3-py39h7eed0ac_1.json: "size": 5732039,tk-8.6.10-hb0a8c7a_1.json: "size": 3420669,openssl-1.1.1k-h0d85af4_0.json: "size": 1985060,sqlite-3.35.5-h44b9ce1_0.json: "size": 1810221,libgfortran5-9.3.0-h6c81a4c_22.json: "size": 1766473,pip-21.1.2-pyhd8ed1ab_0.json: "size": 1147500,libcxx-11.1.0-habf9029_0.json: "size": 1055976,setuptools-49.6.0-py39h6e9494a_3.json: "size": 972968,ncurses-6.2-h2e338ed_4.json: "size": 901840,jax-0.2.14-pyhd8ed1ab_0.json: "size": 571585,llvm-openmp-11.1.0-hda6cdc1_1.json: "size": 274368,readline-8.1-h05e3726_0.json: "size": 272444,xz-5.2.5-haf1e3a3_1.json: "size": 233058,certifi-2021.5.30-py39h6e9494a_0.json: "size": 144599,ca-certificates-2021.5.30-h033912b_0.json: "size": 139088,tzdata-2021a-he74cb21_0.json: "size": 123802,zlib-1.2.11-h7795811_1010.json: "size": 104180,absl-py-0.12.0-pyhd8ed1ab_0.json: "size": 98565,tqdm-4.61.0-pyhd8ed1ab_0.json: "size": 81513,opt_einsum-3.3.0-pyhd8ed1ab_1.json: "size": 54494,libffi-3.3-h046ec9c_2.json: "size": 46425,wheel-0.36.2-pyhd3deb0d_0.json: "size": 31381,python-flatbuffers-2.0-pyhd8ed1ab_0.json: "size": 28606,libgfortran-5.0.0-9_3_0_h6c81a4c_22.json: "size": 19280,six-1.16.0-pyh6c4a22f_0.json: "size": 14259,libblas-3.9.0-9_openblas.json: "size": 11762,libcblas-3.9.0-9_openblas.json: "size": 11671,liblapack-3.9.0-9_openblas.json: "size": 11671,python_abi-3.9-1_cp39.json: "size": 3921,
about 输出显示 jaxlib
是最大的包,其次是 scipy
,然后是 python
解释器本身。在这种情况下,如果我想删除 jaxlib
,它也需要删除 jax
。
注意事项
我认为以上是按大小对包进行排名的第一个近似值。 size_in_bytes
可能更准确,但要彻底,还需要考虑哪些单个文件是硬链接,因为这些文件实际上不应该计入 每个环境等级。对于他们来说,每个系统只有一个副本,并且可以跨环境重复使用。
您可以通过 pip
通信使用 subprocess
模块(Python >= 3.7):
from pip._internal.commands.show import search_packages_info
import subprocess
import sys
import json
import pathlib
import math
import operator
TMPL = '{:<30} {:<30} {:<10} {:>9}'
def humanize(size):
"""Convert size in bytes to human readable output."""
try:
units = ['B','KB','MB','GB']
i = math.floor(math.log(size) / math.log(1024))
hsize = f"{round(size / 1024**i)}{units[i]}"
except ValueError:
hsize = '0B'
return hsize
def pip_list_ext():
"""List installed packages with additional information."""
# python -m pip list --format --json --verbose
pip_list = subprocess.run([sys.executable,'-m','pip','list','--format','json','--verbose'],capture_output=True)
if pip_list.returncode != 0:
raise RuntimeError('...')
query = [pkg['name'] for pkg in json.loads(pip_list.stdout)]
packages = []
for pkg in search_packages_info(query):
location = pathlib.Path(pkg['location'])
pkg['installer'] = pkg.get('installer','')
pkg['files'] = pkg.get('files',[])
size = sum((location / f).stat().st_size
for f in pkg['files'] if (location / f).is_file())
pkg['size'] = size
packages.append(pkg)
return packages
if __name__ == '__main__':
packages = pip_list_ext()
print(TMPL.format('Package','Version','Installer','Size'))
print(TMPL.format('-'*30,'-'*30,'-'*10,'-'*9))
for pkg in packages:
print(TMPL.format(pkg['name'],pkg['version'],pkg['installer'],humanize(pkg['size'])))
# TOP 10
N = 10
pkgs = sorted(packages,key=operator.itemgetter('size'),reverse=True)
print(f"\nTOP {N}:")
for i,pkg in enumerate(pkgs[:N],1):
print(f"{i:>2}. {pkg['name']} ({humanize(pkg['size'])})")
样本输出
Package Version Installer Size
------------------------------ ------------------------------ ---------- ---------
appnope 0.1.2 conda 13KB
backcall 0.2.0 conda 58KB
certifi 2021.5.30 261KB
cffi 1.14.5 conda 780KB
cryptography 3.4.7 conda 2MB
decorator 5.0.9 conda 35KB
ipython 7.22.0 conda 4MB
ipython-genutils 0.2.0 conda 66KB
jedi 0.17.2 conda 5MB
mkl-fft 1.3.0 0B
mkl-random 1.2.1 conda 1MB
mkl-service 2.3.0 0B
numpy 1.20.2 conda 23MB
pandas 1.2.4 27MB
parso 0.7.0 conda 320KB
pexpect 4.8.0 conda 177KB
pickleshare 0.7.5 conda 23KB
pip 21.1.2 0B
prompt-toolkit 3.0.17 conda 2MB
ptyprocess 0.7.0 conda 40KB
pycparser 2.20 conda 547KB
Pygments 2.9.0 conda 6MB
pyOpenSSL 20.0.1 conda 212KB
python-dateutil 2.8.1 conda 619KB
pytz 2021.1 conda 971KB
setuptools 52.0.0.post20210125 0B
six 1.15.0 conda 63KB
traitlets 5.0.5 conda 798KB
wcwidth 0.2.5 conda 411KB
wheel 0.36.2 0B
TOP 10:
1. pandas (27MB)
2. numpy (23MB)
3. Pygments (6MB)
4. jedi (5MB)
5. ipython (4MB)
6. cryptography (2MB)
7. prompt-toolkit (2MB)
8. mkl-random (1MB)
9. pytz (971KB)
10. traitlets (798KB)
,
如果您担心用完磁盘空间,可以运行此命令来清理 conda 用于设置环境的所有临时包、zip 文件等。
conda clean --all
这些文件会保留下来,随着时间的推移可能会弄乱您的磁盘。
使用
du -h -s $(conda info --base)/envs/test-1
对于包的文件大小
,du tool
可以告诉您特定目录占用了多少磁盘空间。
例如,创建一个相同的 conda 环境(Miniconda)并像这样检查其磁盘使用情况:
$ conda create -n testenv -y python numpy pandas
$ du -h -s $(conda info --base)/envs/testenv
1.2G /opt/miniconda/envs/testenv
,
此解决方案适用于 Windows 10。
安装 Windows SysInternals,以便您拥有命令实用程序 du
。
运行 du
命令以找出 Anaconda 中 site-packages
下的包大小并将结果存储在 csv 文件中。
$ du -c -v Lib/site-packages/ > packages.csv
使用 Excel 打开 packages.csv
。按降序对包裹尺寸列进行排序。现在,您可以获得有关最大包裹尺寸的包裹的信息。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。