文本二进制分类训练期间的波动损失

如何解决文本二进制分类训练期间的波动损失

我正在使用Longformer文档文本二进制分类任务进行Huggingface Trainer class的微调,并且正在使用Tensorboard监视某些检查点的措施。

即使F1得分和准确性很高,我也对训练损失的波动感到困惑。

我在网上阅读的原因可能是:

  • 学习率太高,但是我尝试使用3个值(1e-4、1e-5和1e-6),并且所有这些都产生了相同的效果
  • 小批量。我正在使用具有8xK80 GPU的 Sagemaker笔记本p2.8xlarge 。我可以用来避免 CUDA内存不足错误的每个GPU的批处理大小为1。因此,总批处理大小为 8 。我的直觉是,对于包含57K个示例(每个纪元7K个步骤)的数据集,bs 8太小了。不幸的是,这是我可以使用的最高价值。

在这里,我报告了F1的趋势,准确性,损失和平滑损失。灰线是1e-6的学习率,粉红色的是1e-5。

我重新确定了培训的所有信息

  • 批处理大小:1 x 8GPU = 8
  • 学习率 1e-4 1e-5 1e-6 (均已测试)没有改善的损失
  • 型号 Longformer
  • 数据集
    • 培训集 57,000个示例
    • 开发集 12K示例
    • 测试集 12,000个示例

可能是什么原因?尽管F1和准确性结果相当好,这可以算是一个问题吗?

解决方法

我会先告诉你波动的原因,然后再告诉你可能的解决方法。

原因

当你训练一个网络时,你会计算一个可以减少损失的梯度。为此,您需要反向传播损失。现在,理想情况下,您可以根据数据中的所有样本计算损失,因为这样您基本上会考虑每个样本,并提出一个可以捕获所有样本的梯度。实际上,由于对所有样本计算梯度的计算复杂性,这是不可能的。

因此,我们使用 small batch_size 作为近似值!这个想法不是考虑所有样本,我们说我基于一些小样本集计算梯度,但作为权衡,我丢失了有关梯度的信息。

经验法则:较小的批次大小会产生嘈杂的梯度,但它们会更快地收敛,因为每个 epoch 都有更多的更新。如果您的批量大小为 1,您将在每个 epoch 中进行 N 次更新。如果是 N,则每个 epoch 将只有 1 次更新。另一方面,较大的批次大小会提供更多信息梯度,但它们收敛速度较慢并增加计算复杂度。

这就是为什么对于较小的批次大小,您会观察到不同的损失/波动,因为梯度是嘈杂的。

解决方案:累积梯度

如果出现内存问题,您可以使用累积梯度的概念来对抗波动损失。它在每个小批量之后计算损失和梯度,但不是更新每个批次的权重,而是等待并累积连续批次的梯度。然后最终根据指定批次数后的累积梯度更新参数。

在文档的这个页面上,您可以找到如何应用它:https://huggingface.co/transformers/v1.2.0/examples.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res