2011/07/16 NagoyaCV_takmin

2011/07/16 名古屋CV・PRML勉強会
発表資料
takmin

本日紹介する論文
 A Coarse-to-fine approach for fast deformable
object detection
 Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez
 CVPR2011

この論文の主張：
Deformable Part Modelと
いう物体検出手法を高速
化したぜ

Deformable Part Model
とはなんぞや？

Histogram of Oriented Gradients (HOG)

 8×8ピクセルを一つのセルとする。
 セルごとに勾配方向のヒストグラムを作成
 各ヒストグラムをつなげたものを特徴量とする
 N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”,
CVPR, 2005

HOGによる物体検出
：位置とスケール

p  ( x, y, l )
位置スケール

score( p)
 F   ( p, H )
位置とスケールpから抽出
したHOG特徴量ベクトル

HOGによる物体検出

線型SVMによる学習と検出

 物体のモデルをパーツの集合として表現
 パーツの相対位置は対象によって変化
 ここでは、以下の手法を解説
 P. Felzenswalb et al, “Object Detection with Discriminatively Trained
Part Based Models”, PAMI, 32(9), 2010


z   p0 ,, pn 
p0
ルート位置

p1 ,, pn
パーツ位置

評価関数
Bounding Boxの妥当性各パーツ形状パーツ位置の歪み定数項
の妥当性
n n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
i 0 i 1
各Boxのパーツ位置
HOG特徴歪み
フィルタ歪みパラ
メータ

d (dx, dy)  (dx, dy, dx 2 , dy 2 )

(dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi )
パーツ位置歪みパーツ位置ルート位置
標準的な
パーツの
位置

物体の検出

n n
i 0 i 1

p0 Sliding Windowの各位置で以下の
スコアを求め、高いところを検出す
る。

score( p0 )
 max score p0 ,, pn 
p1 ,, pn

各ルート位置でもっとも最適化された
パーツ位置でのスコア

物体の検出

n n
i 0 i 1

 n n

score p0   max   Fi   ( pi )   d i  d (dxi , dyi ) 
p1 ,, pn
 i 0 i 1 

各パーツは独立なので、それぞれについてスコアを最大化する。
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
pi
i 1

n
pi
i 1

Deformable Part Modelの学習
 学習データはBounding Box + ラベル名
 各パーツのフィルタFと歪みパラメータdを求める。

Latent SVMによる学習
n
pi
i 1

識別関数 f  ( x)  max   ( x, z )
zZ ( x )

n
pi
i 1

識別関数 f  ( x)  max   ( x, z )
zZ ( x )

入力画像パーツ位置 z   p0 ,, pn 
これを学習したい！

f  ( x)    ( x) という形なら、SVMで解けるが、、、
残念ながら非凸関数

 パーツ位置zを潜在変数として扱う

Latent SVM (MI-SVM)

識別関数 f  ( x)  max   ( x, z )
zZ ( x )

学習画像パーツ位置 z   p0 ,, pn 
（潜在変数）

以下の繰り返しにより解く：
1.  を固定して f  (x) を最大化する z を求める
2. z を固定して  を最適化（通常のSVM）

Deformable Part Modelの計算コスト

L 画像のピクセル数 c パーツの近傍探索範囲
P パーツの数 D フィルターの次元
δ セルのサイズ

 L  L 
O P 2  D  2  
  
   c 
処理する特徴量マッチパーツ探索
セルの数ングのコストのコスト

例：
フィルターのサイズ： 6×6セル D  6  6  31  1,116
セルの次元： 31
L
パーツ探索範囲： 6×6セル  6  6  36
 c
2

 L  L 
O P 2  D  2  
  
   c 

例：
フィルターのサイズ： 6×6セル D  6  6  31  1,116
セルの次元： 31
L
パーツ探索範囲： 6×6セル  6  6  36
 c
2

 L 
O P 2 1,116  36
  

いかにマッチングにかかるコストを減らすか？

Coarse-to-Fineな推定
 粗い解像度で取得したフィルター情報を元に、密な解
像度でのフィルターの計算範囲を絞る。
 極大点周辺のm×mセルのみ

オブジェクトモデル
 モデルは異なる解像度のHOGフィルタのパーツで構成
 各パーツフィルターは解像度が上がるごとに均等に分割
 階層間の制約（青ライン）＋パーツ間の制約（赤ライン）

検出のための評価関数
p
S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w )
i 1 ( i , j )F ( i , j )P
Sliding Window 各パーツ形状親子パーツの相対隣接パーツの相対
の妥当性の妥当性位置の妥当性位置の妥当性
(a) (bの青いライン) (bの赤の破線)

p
i 1 ( i , j )F ( i , j )P

S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像
HOG特徴パーツのフィルタ
w : パラメータ
y i : パーツiの位置

p
i 1 ( i , j )F ( i , j )P

w : パラメータ
S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置
親子パーツの相歪みパラメータ
対位置


D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 

p
i 1 ( i , j )F ( i , j )P

w : パラメータ
S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置
親子パーツの相歪みパラメータ
対位置

S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i )
隣接パーツの相歪みパラメータ
対位置


D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 

検出のための評価関数 NEW!
p
i 1 ( i , j )F ( i , j )P

n n
i 0 i 1

Felzenswalbらのモデルとの対応

p
i 1 ( i , j )F ( i , j )P
隣接パーツの相対
位置の妥当性
おそらくこういう状況を防ぐための制約

p
i 1 ( i , j )F ( i , j )P
隣接パーツの相対
位置の妥当性

Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ
たため、加えた制約

隣接パーツの評価あり隣接パーツの評価なし
学習結果学習結果

物体の検出
 粗い解像度から順にスコアを計算してい
く
 前の解像度で求めたスコアの極大点周
辺（2m+1)×(2m+1)セルのみ
 パーツのフィルタ応答を計算
 パーツ位置の歪みを計算
 （フィルタ応答－歪み）の最大値を計算

物体の検出
く
辺（2m+1)×(2m+1)セルのみ

×4

物体の検出
く
辺（2m+1)×(2m+1)セルのみ

×16

物体の検出
p
i 1 ( i , j )F ( i , j )P

 隣接パーツ間の制約が無い時は、モデルはツリー構造
 DPを用いてスコアが一意に求まる
 隣接パーツ間の制約がある時は、一つのパーツの位置を固定
してしまう。

iを固定して、jとiの位置からkの歪みを求める

学習
 latent structural SVMでパラメータを学習
 パーツ位置を潜在変数として扱う
 Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ
のモデルにどのようにlatent structural SVMを適用したのかの
記述はない。
 （おそらく）以下の識別関数Sにおいて、カーネル関数をΦ同士の内
積、損失関数をBounding Boxの重なり具合として、wを求めている。

S y1; x   max w  (x, y i )
y i  p y1

* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial
occulusion. In Proc NIPS, 2009

実験：INRIA Pedestrianデータセット

CF: Coarse-to-Fine
sib: 隣接パーツの制約

[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with
deformable par models. In CVPR, 2010

実験：INRIA Pedestrianデータセット

実験：Coarse-to-Fineの有無で性能比較
INRIA Pedestrianデータの検出スコアの比較

CFあり CFあり

CF無し CF無し

実験：PASCAL VOC 2007データセット

まとめ
 Coarse-to-Fineなアプローチを入れることでDeformable
Part Modelによる検出を高速化した。
 性能（精度＋速度）に関しては、ほぼ最新の手法（カス
ケード型）と同等
 この２つの手法は組み合わせることで更なる高速化が可
能

2011/07/16 NagoyaCV_takmin

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Takuya Minagawa

More from Takuya Minagawa (20)

2011/07/16 NagoyaCV_takmin