微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

论文笔记《Harvesting Discriminative Meta Objects with Deep CNN Features for Scene Classification》

文章提出一个pipeline从场景训练集中挖掘代表性的元素(Meta object),将一幅图像用这些Meta object表示,得到了state-of-the-art的分类效果

论文来自ICCV2015

1 Motivation

假设:场景的类别与场景中的目标有关。

本文借鉴BOW思想,用整个训练集提取出representative and discriminative Meta object,用category-specific的object表示图像。

2 Method

文章提出的pipeline分5步,图示如下:

Framework

Step 1:得到object candidates

  • 用MCG1 (Multiscale combinational grouping)得到region proposals

MCG是基于图片的空间金字塔分割,将多尺度的分割结果合并后得到candidates,能够更好地捕获细节,得到更精确的proposal。

  • 对得到的patch用Hybrid-CNN2提取特征,使用fc7层输出作为patch的特征。

Hybrid-CNN是用Places数据集(场景图片数据集)和ImageNet的图片数据集一起训练得的网络,更适用于场景图片

Step 2:筛选object

  • 通过one-class SVM3去除outliers,也就是在特征空间中和其他patch都不靠近的点。

目标函数

min12w2+1vllξiρ

(wΦ(xi))ρξi,xii0,i=1,2,,l

决策函数
f(x)=sign(wΦ(xi)ρ)

其中, l 是样本个数, v 是outlier所占比率,是人为设置的, ρ 是offset,one-class SVM可以看做将二分类分类面向一侧平移以忽略一些点,这个offset就是平移的距离。

下图是v={0.1,0.2,0.4}时 ρ 的变化,可以看到为了去掉更多outlier,分类面在收缩。

one class SVM

  • 通过weakly supercised soft screen得到判别性强的patch

图片 i 中的patch j 计算一个weight,在所有patch中(除去第i张图的所有其他patch)选patch j的K个近邻,有 Ky 个patch和patch j的label是相同的。这样使得场景的代表性patch有较高的weight。

wij=P(yipij)=P(pij,yi)P(pij)Ky/K.

从下图可以看出,代表性patch其实是不多的。

这里写图片描述

Step 3:得到Meta object

  • 用RIM4(Regularized information maximization)对所有patch聚类,聚类中心就是Meta object,目的是分析整合representative patch中的语义信息。
    聚类结果示例:

这里写图片描述

Step 4:编码图像特征

  • 用所有patch来fine tune一个CNN,输出结点是Meta object,这个CNN用来做patch分类
  • Meta object作为codebook表示图像,用SPM5或VLAD6做pooling。
  • 得到的图像特征,再和整幅图的CNN串联,作为最终的图像特征表示。

Step 5:分类

  • 用有2层隐含层的神经网络,共4层;
  • 每个隐含层200个节点,输入层是图像特征,输出层是图像label;
  • 用Relu作为激励函数

3 Experiment

实验中对pipeline的每一个环节都做了验证。

这里写图片描述

4 Summary

  • Meta object实际上是proposal的聚类结果,而proposal本身只是object候选框,在后面的Meta object挖掘过程中并没有调整这些proposal的内容,所以要依赖于高质量的proposal。
  • 挖掘discriminant patch时没有用准确的标号信息,限制了挖掘能力。
  1. Multiscale combinatorial grouping. CVPR 2014
  2. Learning deep features for scene recognition using places database. NIPS 2014
  3. Estimating the support of a high-dimentional distribution. Neural Comput. 2011
  4. discriminative clustering by regularized information maximization. NIPS 2010
  5. Linear spatial pyramid matching using sparse coding for image classification. CVPR 2009
  6. Aggregating local descriptors into a compact image representation. CVPR 2010

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。