微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为什么 CNN 架构必须将视频分成更小的视频片段来提取 CNN 特征?

如何解决为什么 CNN 架构必须将视频分成更小的视频片段来提取 CNN 特征?

同时应用深度卷积神经网络 (CNN) 来深入了解视频表示。当前的 CNN 架构缺乏对整个视频进行建模的能力,它通常将整个视频分成几个短片段(即剪辑),然后对每个片段分别提取 CNN 特征,最后将多个片段特征聚合成一个集成表示。

我无法理解 CNN 架构的局限性,为什么使用 CNN 可以处理小视频剪辑但不能处理完整视频?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。