科技#pose-detection#computer-vision#mobile-ml#neural-networks

姿態偵測內部運作

卓伊工程師卓伊工程師|2026年5月30日|4 分鐘閱讀
姿態偵測內部運作

手機上的姿態偵測模型,本質上是三個東西穿著一件大衣。一張相機畫面被轉成張量;張量丟進一個小型神經網路,輸出大約二十個身體關鍵點的機率熱圖;第二段把熱圖再轉成 App 可以拿來畫骨架的座標。每一層都有自己的故障模式。光線太差會毀掉第一層的畫面;寬鬆衣物會讓模型混淆;背景太雜會讓追蹤斷掉。

系統

行動裝置上的姿態偵測,是拿即時影片串流,在每一幀裡定位解剖標誌——肩膀、手肘、手腕、髖、膝、腳踝。它不懂人在做什麼,只估計這些點在二維像素空間裡的位置。輸出通常是一組附信心分數的 (x, y) 座標,每秒更新三十次。這串座標流,就是驅動計次健身 App、把虛擬物件掛在手腕上的 AR 濾鏡、或深蹲時檢查膝蓋對位的物理治療工具的基礎。系統是一條管線:影像取得、模型推論、座標解碼,每一段有自己的限制。

每一層

感應層是手機相機。它提供模型預期解析度的 RGB 畫面,通常比相機原生解析度低。縮小發生在擷取管線裡,為了壓低延遲。如果畫面送來時太暗或動態模糊,再聰明的模型也救不回遺失的訊號。模型層是卷積神經網路,常採用輕量骨幹如 MobileNet,就像專為行動與邊緣裝置設計的 MovePose 架構所見。骨幹在多尺度下提取特徵圖,一系列上採樣與預測頭產出熱圖——每個關鍵點一張——每個像素值編碼某個關節中心落在該處的機率。有些架構會為被遮蔽的關鍵點另加分支,訓練網路明確表示關節被遮住的狀態,這能改善擁擠場景下的強健性。應用層對每張熱圖取 argmax 得到座標,再選擇性套用時間濾波器來平滑抖動。接著就用這座標疊上骨架或觸發計數器。

邊界案例

有趣的行為發生在模型被推到訓練分佈之外的時候。在擁擠場景中,多人產生重疊的熱圖;argmax 操作每個關鍵點只挑一個峰值,可能導致骨架混雜不同人的身體部位。有遮蔽分支的網路可以標記這些情況,但 App 仍須決定如何運用這資訊。高速運動帶來不同問題:事件相機文獻顯示,關鍵點偵測與追蹤可以解耦,由偵測提供初始位置,追蹤帶著它往前。在一般手機相機上,動態模糊會抹開關鍵點,熱圖峰值變平,信心下降。衣物質感也有關係:深色袖子在深色背景前會讓手肘隱形,而高對比條紋則給模型更多可抓的特徵。

什麼會壞

光線讓感應層失效。低光提高雜訊底線,模型看到的是邊緣較不清晰的顆粒狀畫面。熱圖變得更寬、信心更低,argmax 可能跳到背景特徵上。寬鬆衣物讓模型失效。網路是從標註影像中學到關鍵點,那些影像裡關節可見或至少能從體型推斷;蓋住膝蓋的飄逸長裙移除了體型線索,模型只能猜,常把膝蓋放得太高或太低。雜亂背景讓追蹤失效。人身後有圖案的窗簾可能產生假的熱圖峰值,模型一時偏好它勝過真實關節,導致骨架閃爍。這些故障模式不是 bug;它們是一條管線的直接後果,這管線從不宣稱理解,只宣稱從像素估計。知道系統在哪裡失敗,是善用它的第一步,因為設計選擇——骨幹、損失函數、遮蔽分支——全都是對這些特定弱點的回應。

參考資料

相關文章

新手友善科技:標籤上沒說的事科技

新手友善科技:標籤上沒說的事

「新手友善」是賣給不想讀說明書的人的一種承諾。這個詞通常代表按鈕變少、有引導式設定精靈,以及把尖銳邊角藏起來的預設值。這確實有用。但這個標籤也暗示裝置會保護你不犯錯,而這就是開始變微妙的地方。自動澆水的微型菜苗機,還是需要你注意到燈光太暗的時候。AI 姿勢教練能標出偏移,但無法告訴你為什麼週二的左髖比較緊。工具減少的是阻力,不是判斷的必要性。這篇專欄來看看新手友善實際給出什麼、那些準確度宣稱從哪來,以及如何看出順暢入門和可信任工具之間的落差。

科技阿樂科技阿樂|5 分鐘|2026年5月26日
知道太多事的健康促進方案科技

知道太多事的健康促進方案

雇主送來的免費健身手環裝在討喜的盒子裡,主打健康、社群,或許還有明年保費折扣。歡迎信沒提的是,同一條資料流可能把你的步數、心率和推估的睡眠模式,送進第三方分析公司、保險公司的風險模型或福利仲介手中。根據現行 EEOC 規定,交出這些資料的財務誘因最高可達保費的三成。方案名義上是自願的,但折扣結構讓它感覺沒那麼自願。在你同步裝置之前,打開權限設定,讀一讀那份大概不在 App 裡、而是埋在公司內部網站某處的隱私權通知,然後問問自己:這個健康方案到底是為了你的健康,還是為了別人的試算表。

山姆隱私觀察山姆隱私觀察|5 分鐘|2026年5月25日
多裝置同步:背後的機制科技

多裝置同步:背後的機制

多裝置同步是一場系統間的舞蹈,每個系統都有自己的節奏,從感測器到軟體。理解其架構有助於我們應對故障和邊緣案例,最終揭示設計權衡和解決方案。

卓伊工程師卓伊工程師|4 分鐘|2026年5月15日