文章提出一个pipeline从场景训练集中挖掘代表性的元素(Meta object),将一幅图像用这些Meta object表示,得到了state-of-the-art的分类效果。
论文来自ICCV2015
1 Motivation
假设:场景的类别与场景中的目标有关。
本文借鉴BOW思想,用整个训练集提取出representative and discriminative Meta object,用category-specific的object表示图像。
2 Method
文章提出的pipeline分5步,图示如下:
Step 1:得到object candidates
- 用MCG1 (Multiscale combinational grouping)得到region proposals
MCG是基于图片的空间金字塔分割,将多尺度的分割结果合并后得到candidates,能够更好地捕获细节,得到更精确的proposal。
Hybrid-CNN是用Places数据集(场景图片数据集)和ImageNet的图片数据集一起训练得的网络,更适用于场景图片。
Step 2:筛选object
目标函数:
决策函数:
其中,
下图是v={0.1,0.2,0.4}时
- 通过weakly supercised soft screen得到判别性强的patch
为图片
从下图可以看出,代表性patch其实是不多的。
Step 3:得到Meta object
- 用RIM4(Regularized information maximization)对所有patch聚类,聚类中心就是Meta object,目的是分析整合representative patch中的语义信息。
聚类结果示例:
Step 4:编码图像特征
- 用所有patch来fine tune一个CNN,输出结点是Meta object,这个CNN用来做patch分类。
- 用Meta object作为codebook表示图像,用SPM5或VLAD6做pooling。
- 得到的图像特征,再和整幅图的CNN串联,作为最终的图像特征表示。
Step 5:分类
3 Experiment
实验中对pipeline的每一个环节都做了验证。
4 Summary
- Meta object实际上是proposal的聚类结果,而proposal本身只是object候选框,在后面的Meta object挖掘过程中并没有调整这些proposal的内容,所以要依赖于高质量的proposal。
- 挖掘discriminant patch时没有用准确的标号信息,限制了挖掘能力。
- Multiscale combinatorial grouping. CVPR 2014 ↩
- Learning deep features for scene recognition using places database. NIPS 2014 ↩
- Estimating the support of a high-dimentional distribution. Neural Comput. 2011 ↩
- discriminative clustering by regularized information maximization. NIPS 2010 ↩
- Linear spatial pyramid matching using sparse coding for image classification. CVPR 2009 ↩
- Aggregating local descriptors into a compact image representation. CVPR 2010 ↩
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。