AWS Eventbridge EventsSagemaker 训练作业状态更改使用相同的有效负载多次触发

如何解决AWS Eventbridge EventsSagemaker 训练作业状态更改使用相同的有效负载多次触发

我为 cloudwatch 中的 Sagemaker 训练作业状态更改创建了一个事件规则,以监控我的训练作业。然后我使用这个事件来触发一个 lambda 函数,该函数作为机器人在电报组中发送消息。通过这种方式,每次训练作业更改其状态时,我都会收到一条消息。它有效,但事件存在问题,它们以相同的确切有效负载被多次触发,因此我收到大量重复消息。 由于所有有效载荷都是相同的(除了字段 LastModifiedTime),我无法在 lambda 中过滤它们。不幸的是,我没有 AWS 开发人员计划,因此无法获得 Amazon 的支持。有什么想法吗?

编辑

没有重复的规则/事件。我还注意到启用 Sagemaker 分析器(现在是默认设置)会导致相同规则调用的数量激增。除了 LastModifiedTime 之外,所有这些都具有相同的有效负载,因此我怀疑 AWS 中存在一个错误。一种解决方案可能是在 lambda 上实现某种数据保留并检查是否已经处理了调用,但我不想让应该非常简单的事情复杂化。刚刚尝试启动一个新的训练作业并得到这个序列(我只报告我解析的字段):

状态:进行中 次要状态:开始 状态消息:启动请求的 ML 实例

状态:进行中 次要状态:开始 状态消息:开始训练作业

状态:进行中 次要状态:开始 状态消息:开始训练作业

状态:进行中 次要状态:开始 状态消息:开始训练作业

状态:进行中 次要状态:开始 状态消息:为训练准备实例

状态:进行中 次要状态:正在下载 状态消息:正在下载输入数据

状态:进行中 次要状态:培训 状态消息:正在下载训练图像

状态:进行中 次要状态:培训 状态消息:培训进行中

状态:进行中 次要状态:培训 状态消息:训练图像下载完成。正在进行培训

解决方法

重复消息可能会发生,但应该非常罕见。您应该检查是否有任何重复的规则/时间表。您可以使用指标来确定正在调用/匹配的内容 https://docs.aws.amazon.com/eventbridge/latest/userguide/eventbridge-monitoring-cloudwatch-metrics.html

另一个原因可能是您的规则过于宽泛并且匹配同一来源的多个事件。您可以针对 Cloudwatch Logs 的相同规则创建另一个目标,以查看匹配哪些事件以及是否需要进行任何过滤。

也有可能 sagemaker 只是将重复的事件发送到 EventBridge,在这种情况下,您最好的选择是让我们 ElastiCache 临时存储 ID 并在您的 lambda 中进行检查。

,

经过大量实验后,我可以回答自己,Sagemaker 生成多个具有相同负载的事件,字段 LastModifiedTime 除外。我不知道这是一个错误,但在我看来不应该发生。这些是 AWS 自己定义的规则,所以我无法自定义。如果您启用分析器,情况会更糟。 我无能为力,因为我已经在 AWS 官方论坛上多次发帖,但没有任何运气。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res