Motivation

隨著深度學習應用於電腦視覺上的演進,研究方向從二維影像分析,逐漸擴展至三維資料的處理,其中關於如何從物體的二維影像,準確又快速地重建回其原有三維模型資料,便是最火紅的研究之一。過去受限於含有三維模型標記的真實影像數量不足,無法達到良好的重建結果,此外如何運用其技術轉化為具有高度價值及使用性的應用,也是我們關注的焦點。 本次專題我們參考近期於真實影像的三維重建上,獲得傑出效果的幾篇論文,認為採用改良式的「三段式訓練架構」,會比一般兩段式的訓練架構得到更好的訓練效果,能有效解決上述問題,同時結合當紅的擴增實境 (Augmented Reality) 套件 ─ Vuforia,實作一款基於深度學習三維重建技術下的 DM 商品模擬器。

Problem

Pic 01

現有三維模型重建使用的神經網路架構,大多從過去用來處理二維資料的 CNN 作修改而來,出於三維模型的特性和實際應用的取向,導致三維模型重建上目前有兩大問題尚待解決,一是真實二維影像(Real image)附有實際對應的三維模型(Ground-truth 3D shape)之數據量不夠,難以滿足深度學習需要的大量資料,二則是合適的儲存方式,將直接影響計算上的速度與進行延伸應用的難度。

Concept

Pic 01

找出真實影像與合成資料的一致處,例如深度(Depth map)、表面法向量(Surface normal)、骨架(Skeleton)等,這些不受材質與環境光影響的內部特徵(Intrinsic images),用其作為數據訓練出的Model。先將真實影像轉成對應的內部特徵,再從內部特徵去預估三維模型,最後以合成影像中的實際三維模型作回推(Reprojection)。