SlideShare a Scribd company logo
1 of 47
Download to read offline
2011/07/16 名古屋CV・PRML勉強会
                    発表資料
                    takmin
本日紹介する論文
   A Coarse-to-fine approach for fast deformable
    object detection
       Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez
       CVPR2011

この論文の主張:
Deformable Part Modelと
いう物体検出手法を高速
化したぜ
Deformable Part Model
   とはなんぞや?
Histogram of Oriented Gradients (HOG)




   8×8ピクセルを一つのセルとする。
   セルごとに勾配方向のヒストグラムを作成
   各ヒストグラムをつなげたものを特徴量とする
   N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”,
    CVPR, 2005
HOGによる物体検出
             :位置とスケール




                 p  ( x, y, l )
                        位置   スケール

               score( p)
                   F   ( p, H )
                  位置とスケールpから抽出
                  したHOG特徴量ベクトル
HOGによる物体検出

線型SVMによる学習と検出
Deformable Part Model
   物体のモデルをパーツの集合として表現
       パーツの相対位置は対象によって変化
   ここでは、以下の手法を解説
       P. Felzenswalb et al, “Object Detection with Discriminatively Trained
        Part Based Models”, PAMI, 32(9), 2010
Deformable Part Model

                        z   p0 ,, pn 
                        p0
                          ルート位置

                        p1 ,, pn
                             パーツ位置
評価関数
Bounding Boxの妥当性              各パーツ形状                  パーツ位置の歪み           定数項
                               の妥当性
                        n                       n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                    i 1
                                各Boxの                     パーツ位置
                                HOG特徴                      歪み
                        フィルタ                    歪みパラ
                                                 メータ



                        d (dx, dy)  (dx, dy, dx 2 , dy 2 )

                         (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi )
                     パーツ位置歪み           パーツ位置           ルート位置
                                                                  標準的な
                                                                  パーツの
                                                                   位置
物体の検出

                        n                    n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                 i 1


p0                                     Sliding Windowの各位置で以下の
                                       スコアを求め、高いところを検出す
                                       る。

                                     score( p0 )
                                          max score p0 ,, pn 
                                            p1 ,, pn


                                       各ルート位置でもっとも最適化された
                                       パーツ位置でのスコア
物体の検出

                           n                    n
  score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                          i 0                 i 1




                               n             n
                                                                    
      score p0   max   Fi   ( pi )   d i  d (dxi , dyi ) 
                    p1 ,, pn
                               i 0        i 1                    



                      各パーツは独立なので、それぞれについてスコアを最大化する。
                                  n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                                 i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
Deformable Part Modelの学習
   学習データはBounding Box + ラベル名
   各パーツのフィルタFと歪みパラメータdを求める。
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )

                                             入力画像 パーツ位置   z   p0 ,, pn 
                            これを学習したい!


 f  ( x)    ( x) という形なら、SVMで解けるが、、、
                       残念ながら非凸関数
Latent SVMによる学習
   パーツ位置zを潜在変数として扱う

       Latent SVM (MI-SVM)

識別関数     f  ( x)  max   ( x, z )
                  zZ ( x )

                              学習画像 パーツ位置    z   p0 ,, pn 
                                   (潜在変数)


以下の繰り返しにより解く:
1.  を固定して f  (x) を最大化する z を求める
2. z を固定して  を最適化(通常のSVM)
やっと本題
Deformable Part Modelの計算コスト

 L   画像のピクセル数        c   パーツの近傍探索範囲
 P   パーツの数          D    フィルターの次元
 δ   セルのサイズ




               L        L 
             O P 2  D  2  
                            
                        c 
         処理する      特徴量マッチ   パーツ探索
         セルの数      ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル           D  6  6  31  1,116
 セルの次元: 31
                             L
 パーツ探索範囲: 6×6セル                  6  6  36
                             c
                             2



         L        L 
       O P 2  D  2  
                      
                  c 
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル             D  6  6  31  1,116
 セルの次元: 31
                               L
 パーツ探索範囲: 6×6セル                    6  6  36
                               c
                               2




         L               
       O P 2 1,116  36
                        
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト

  いかにマッチングにかかるコストを減らすか?
Coarse-to-Fineな推定
       粗い解像度で取得したフィルター情報を元に、密な解
        像度でのフィルターの計算範囲を絞る。
       極大点周辺のm×mセルのみ
オブジェクトモデル
   モデルは異なる解像度のHOGフィルタのパーツで構成
   各パーツフィルターは解像度が上がるごとに均等に分割
   階層間の制約(青ライン)+パーツ間の制約(赤ライン)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                 位置の妥当性
                          (a)                      (bの青いライン)                               (bの赤の破線)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                  x : 入力画像
                          HOG特徴         パーツのフィルタ
                                                                                 w : パラメータ
                                                                                 y i : パーツiの位置
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置




                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置

     S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i )
                            隣接パーツの相           歪みパラメータ
                              対位置

                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数                                                                                                NEW!
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性



                             n                                     n
 score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                            i 0                                  i 1

  Felzenswalbらのモデルとの対応
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性
                 おそらくこういう状況を防ぐための制約
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性

  Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ
  たため、加えた制約




         隣接パーツの評価あり                                             隣接パーツの評価なし
            学習結果                                                   学習結果
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                         ×4
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                             ×16
物体の検出
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P


    隣接パーツ間の制約が無い時は、モデルはツリー構造
        DPを用いてスコアが一意に求まる
    隣接パーツ間の制約がある時は、一つのパーツの位置を固定
     してしまう。




     iを固定して、jとiの位置からkの歪みを求める
学習
   latent structural SVMでパラメータを学習
       パーツ位置を潜在変数として扱う
       Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ
        のモデルにどのようにlatent structural SVMを適用したのかの
        記述はない。
           (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内
            積、損失関数をBounding Boxの重なり具合として、wを求めている。


               S y1; x   max w  (x, y i )
                                y i  p  y1



* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial
occulusion. In Proc NIPS, 2009
実験:INRIA Pedestrianデータセット




CF: Coarse-to-Fine
sib: 隣接パーツの制約

[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with
deformable par models. In CVPR, 2010
実験:INRIA Pedestrianデータセット
実験:Coarse-to-Fineの有無で性能比較
       INRIA Pedestrianデータの検出スコアの比較

CFあり                       CFあり




                    CF無し              CF無し
実験:PASCAL VOC 2007データセット
まとめ
   Coarse-to-Fineなアプローチを入れることでDeformable
    Part Modelによる検出を高速化した。
   性能(精度+速度)に関しては、ほぼ最新の手法(カス
    ケード型)と同等
   この2つの手法は組み合わせることで更なる高速化が可
    能

More Related Content

What's hot

動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, StrongerDeep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらいHideo Terada
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件Shinobu KINJO
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)Masakazu Iwamura
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 

What's hot (20)

動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらい
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 

2011/07/16 NagoyaCV_takmin

  • 2. 本日紹介する論文  A Coarse-to-fine approach for fast deformable object detection  Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez  CVPR2011 この論文の主張: Deformable Part Modelと いう物体検出手法を高速 化したぜ
  • 3. Deformable Part Model とはなんぞや?
  • 4. Histogram of Oriented Gradients (HOG)  8×8ピクセルを一つのセルとする。  セルごとに勾配方向のヒストグラムを作成  各ヒストグラムをつなげたものを特徴量とする  N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, 2005
  • 5. HOGによる物体検出 :位置とスケール p  ( x, y, l ) 位置 スケール score( p)  F   ( p, H ) 位置とスケールpから抽出 したHOG特徴量ベクトル
  • 7. Deformable Part Model  物体のモデルをパーツの集合として表現  パーツの相対位置は対象によって変化  ここでは、以下の手法を解説  P. Felzenswalb et al, “Object Detection with Discriminatively Trained Part Based Models”, PAMI, 32(9), 2010
  • 8. Deformable Part Model z   p0 ,, pn  p0 ルート位置 p1 ,, pn パーツ位置
  • 9. 評価関数 Bounding Boxの妥当性 各パーツ形状 パーツ位置の歪み 定数項 の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 各Boxの パーツ位置 HOG特徴 歪み フィルタ 歪みパラ メータ d (dx, dy)  (dx, dy, dx 2 , dy 2 ) (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi ) パーツ位置歪み パーツ位置 ルート位置 標準的な パーツの 位置
  • 10. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 p0 Sliding Windowの各位置で以下の スコアを求め、高いところを検出す る。 score( p0 )  max score p0 ,, pn  p1 ,, pn 各ルート位置でもっとも最適化された パーツ位置でのスコア
  • 11. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1  n n  score p0   max   Fi   ( pi )   d i  d (dxi , dyi )  p1 ,, pn  i 0 i 1  各パーツは独立なので、それぞれについてスコアを最大化する。 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 12. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 13. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 14. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 15. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 16. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 17. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 18. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 19. Deformable Part Modelの学習  学習データはBounding Box + ラベル名  各パーツのフィルタFと歪みパラメータdを求める。
  • 20. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 21. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 22. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 入力画像 パーツ位置 z   p0 ,, pn  これを学習したい! f  ( x)    ( x) という形なら、SVMで解けるが、、、 残念ながら非凸関数
  • 23. Latent SVMによる学習  パーツ位置zを潜在変数として扱う Latent SVM (MI-SVM) 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 学習画像 パーツ位置 z   p0 ,, pn  (潜在変数) 以下の繰り返しにより解く: 1.  を固定して f  (x) を最大化する z を求める 2. z を固定して  を最適化(通常のSVM)
  • 25. Deformable Part Modelの計算コスト L 画像のピクセル数 c パーツの近傍探索範囲 P パーツの数 D フィルターの次元 δ セルのサイズ  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 26. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 27. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  O P 2 1,116  36    処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト いかにマッチングにかかるコストを減らすか?
  • 28. Coarse-to-Fineな推定  粗い解像度で取得したフィルター情報を元に、密な解 像度でのフィルターの計算範囲を絞る。  極大点周辺のm×mセルのみ
  • 29. オブジェクトモデル  モデルは異なる解像度のHOGフィルタのパーツで構成  各パーツフィルターは解像度が上がるごとに均等に分割  階層間の制約(青ライン)+パーツ間の制約(赤ライン)
  • 30. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 (a) (bの青いライン) (bの赤の破線)
  • 31. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ y i : パーツiの位置
  • 32. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 33. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置 S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i ) 隣接パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 34. 検出のための評価関数 NEW! p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 Felzenswalbらのモデルとの対応
  • 35. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 おそらくこういう状況を防ぐための制約
  • 36. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ たため、加えた制約 隣接パーツの評価あり 隣接パーツの評価なし 学習結果 学習結果
  • 37. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 38. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 39. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×4
  • 40. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×16
  • 41. 物体の検出 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P  隣接パーツ間の制約が無い時は、モデルはツリー構造  DPを用いてスコアが一意に求まる  隣接パーツ間の制約がある時は、一つのパーツの位置を固定 してしまう。 iを固定して、jとiの位置からkの歪みを求める
  • 42. 学習  latent structural SVMでパラメータを学習  パーツ位置を潜在変数として扱う  Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ のモデルにどのようにlatent structural SVMを適用したのかの 記述はない。  (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内 積、損失関数をBounding Boxの重なり具合として、wを求めている。 S y1; x   max w  (x, y i ) y i  p y1 * A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial occulusion. In Proc NIPS, 2009
  • 43. 実験:INRIA Pedestrianデータセット CF: Coarse-to-Fine sib: 隣接パーツの制約 [9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with deformable par models. In CVPR, 2010
  • 45. 実験:Coarse-to-Fineの有無で性能比較 INRIA Pedestrianデータの検出スコアの比較 CFあり CFあり CF無し CF無し
  • 47. まとめ  Coarse-to-Fineなアプローチを入れることでDeformable Part Modelによる検出を高速化した。  性能(精度+速度)に関しては、ほぼ最新の手法(カス ケード型)と同等  この2つの手法は組み合わせることで更なる高速化が可 能