スマホ上の姿勢検出モデルは、本質的にはコートを羽織った三つの部品の集まりです。カメラのフレームがテンソルに変換され、それが小さなニューラルネットワークに入り、およそ二十個の身体キーポイントの確率ヒートマップを出力します。次の段でそのヒートマップを、アプリが骨格を描くのに使える座標へと変換します。それぞれの段に固有の壊れ方があります。光が悪ければ最初の段の画像が壊れる、ゆったりした服はモデルを混乱させる、背景が雑然としていればトラッキングが切れる。
システム(実際に何をしているのか)
姿勢検出は画像のストリームを受け取り、肩、肘、手首、腰、膝、足首といった身体のランドマークをピクセル空間で特定します。モバイルデバイスでは、パイプライン全体がローカルで実行されます。カメラが毎秒三十または六十のフレームを届け、軽量なニューラルネットワークが関節のヒートマップを予測し、デコーダが座標を抽出します。出力は骨格であり、アプリはそれをフィットネス追跡やAR、ジェスチャー制御に使えます。システムは解剖学を理解しているわけではなく、何千ものラベル付き事例を通じて身体部位と相関する輝度パターンを理解しているのです。
各層(センサー/モデル/アプリ)
センサー
カメラは入口です。二次元のピクセル配列をキャプチャし、計算負荷を抑えるため通常はVGAか720pの解像度が使われます。露出、ホワイトバランス、フォーカスは、フレームがモデルに届く前にスマホのISPが処理します。フレーム間で露出が一定しないとキーポイントの信頼度が変動し、素早い動きによるモーションブラーはピクセル格子をにじませます。センサー層は姿勢の知識を一切持たず、生の輝度と色差を提供するだけです。ここでの欠陥はすべて上流へ伝播します。
モデル
モバイル向け姿勢モデルは、しばしばMobileNetのバックボーンにU-Net風のデコーダ、またはシンプルなヒートマップ回帰ヘッドを組み合わせます。エンコーダは画像を特徴マップに圧縮し、デコーダはそのマップをアップサンプリングして、キーポイントごとにヒートマップを生成します。通常十七から二十一チャンネルで、各チャンネルはピクセル位置に対する確率分布です。ソフトargmaxや座標分類のステップがヒートマップを(x, y)座標に変換します。MovePoseのように転置畳み込みアップサンプリングを加え、SimCCで座標予測を行うシステムもあれば、初期推定を修正する多段階のリファインメントに頼るものもあります。モデルは関節がラベル付けされたデータセットで訓練され、衣服のテクスチャや遮蔽、背景の乱雑さを無視することを学びます——ある程度までは。
アプリ
アプリはキーポイント座標のストリームを受け取り、骨格のオーバーレイを構築します。ジッターを減らすために時間的平滑化を適用したり、骨の長さの一貫性といった解剖学的制約を強制したり、特定の姿勢が検出されたときにイベントを発火したりします。アプリ層は骨格がアクションにつながる場所です。また、エラーも表面化します。漂う足、消えた手首、ちらつく肘。優れたアプリは不確実性を隠さずに露出させます。
エッジケース(面白くなるところ)
単一人物の姿勢推定は、被写体がカメラに正対し、腕を組んでおらず、均一な照明下にあるときはうまく機能します。複数人物、遮蔽、あるいは変わった視点が入ると状況は面白くなります。複数人物システムはまず個人を検出し、次にキーポイントを各人に割り当てなければなりません。ボトムアップ手法はすべてのキーポイントを検出してから人物ごとにグループ化し、トップダウン手法は先にバウンディングボックスを検出してから各ボックスに単一人物の姿勢推定を実行します。どちらの戦略も重なり合う手足に苦戦します。フレームをまたいで姿勢を追跡する時間的モデルは助けになりますが、レイテンシとメモリコストをもたらします。モバイルでは予算が厳しく、パラメータが多すぎるモデルはフレームを落とし、フレーム落ちは骨格のカクつきを意味します。
何が壊れるか(そしてそれを知ることがなぜ役立つか)
姿勢検出は予測可能な形で壊れます。低照度はセンサーノイズを増やし、エンコーダの特徴抽出を混乱させます。ゆったりした服やだぶついた服はシルエットを変え、モデルが関節ではなく布の折り目にキーポイントを置く原因になります。複雑なテクスチャや動く物体のある混雑した背景は、偽のヒートマップピークを生み出します。手足が隠れると、モデルは見えている文脈から位置を推測しなければならず、文脈が曖昧ならキーポイントは消えるか、ありえない場所に飛びます。速い動きはモーションブラーと大きなフレーム間変位をもたらし、時間的平滑化の前提を破ります。これらの故障モードを知っておくと、アプリのデバッグや骨格出力の解釈に役立ちます。低照度でジッターする骨格はモデルのバグではなく、センサーの限界です。サイドプランク中に肘が消えるのはクラッシュではなく、訓練セットで過小評価されていた遮蔽のケースです。どこを見ればよいか知っていれば、システムは自らの不確実性について正直です。
参考文献
- Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers — arxiv.org
- Human Modelling and Pose Estimation Overview — arxiv.org
- MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices — arxiv.org
- 3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review — arxiv.org
- An End-to-End Framework for Video Multi-Person Pose Estimation — arxiv.org




