没有及时深度清理的 Ceph PG 不断增加

如何解决没有及时深度清理的 Ceph PG 不断增加

我大约 4 天前就注意到了这一点，但现在不知道该怎么做。问题如下：

我有一个 6 节点 3 监视器 ceph 集群，带有 84 个 osds、72x7200rpm 旋转磁盘和 12xnvme ssds 用于日志记录。擦洗配置的每个值都是默认值。集群中的每个 pg 都是 active+clean，每个集群的 stat 都是绿色的。然而，没有及时深入清理的 PG 不断增加，目前为 96。 ceph -s 的输出：

  cluster:
    id:     xxxxxxxxxxxxxxxxx
    health: HEALTH_WARN
            1 large omap objects
            96 pgs not deep-scrubbed in time

  services:
    mon: 3 daemons,quorum mon1,mon2,mon3 (age 6h)
    mgr: mon2(active,since 2w),standbys: mon1
    mds: cephfs:1 {0=mon2=up:active} 2 up:standby
    osd: 84 osds: 84 up (since 4d),84 in (since 3M)
    rgw: 3 daemons active (mon1,mon3)

  data:
    pools:   12 pools,2006 pgs
    objects: 151.89M objects,218 TiB
    usage:   479 TiB used,340 TiB / 818 TiB avail
    pgs:     2006 active+clean

  io:
    client:   1.3 MiB/s rd,14 MiB/s wr,93 op/s rd,259 op/s wr

我该如何解决这个问题？ ceph 健康详细信息输出还显示，这个非深度清理的 pg 警报始于 1 月 25 日，但我之前没有注意到这一点。我注意到这一点的时间是 osd 下降了 30 秒然后又上升了。它可能与这个问题有关吗？它会自己解决吗？我应该篡改擦洗配置吗？例如，如果我将 osd_max_scrubs 从 1 增加到 2，我在客户端可能会面临多少性能损失？

解决方法

您可以将深度磨砂周期设置为 2 周，以延长深度磨砂窗口。插入

 osd_deep_scrub_interval = 604800

使用：

 osd_deep_scrub_interval = 1209600

先生Eblock 有一个好主意，可以手动强制一些 pgs 进行深度清理，以便在 2 周内均匀地传播这些动作。

通常集群会在集群的低 I/O 间隔期间深度清理自身。默认情况下，每个 PG 必须每周深度擦洗一次。如果 OSD 出现故障，则无法对其进行深度擦洗，当然，这可能会导致一些延迟。您可以运行类似这样的程序来查看哪些 PG 在后面，以及它们是否都在同一个 OSD 上：

ceph pg dump pgs | awk '{print $1" "$23}' | column -t

如有必要，对输出进行排序，您可以对其中一个受影响的 PG 发出手动深度清理，以查看数量是否减少以及深度清理本身是否有效。

ceph pg deep-scrub <PG_ID>

还请添加 ceph osd pool ls detail 以查看是否设置了任何标志。

没有及时深度清理的 Ceph PG 不断增加

如何解决没有及时深度清理的 Ceph PG 不断增加

解决方法

相关推荐