CADCrafter:單張圖片到參數(shù)化CAD模型生成框架
CADCrafter是什么?
CADCrafter 是一種由魔芯科技、新加坡南洋理工大學等機構研究人員提出的圖像到參數(shù)化 CAD 模型生成框架。它能夠直接從單張圖片生成高質量、可編輯的 CAD 模型,這些模型可以通過 CAD 編譯器編譯為可用于生產的 3D 文件,解決了從圖像到可編輯CAD模型的轉換問題。
CADCrafter核心特點
基于幾何特征的生成:CADCrafter 使用幾何編碼器來準確捕捉圖像中的幾何特征,例如深度和法線圖。這些特征不僅增強了模型的幾何表示能力,還使得模型能夠更好地從合成數(shù)據(jù)泛化到真實世界圖像。
直接偏好優(yōu)化(DPO):由于將 CAD 參數(shù)序列編譯為顯式 CAD 模型是非可微分過程,CADCrafter 通過 DPO 方法利用 CAD 編譯器的反饋來優(yōu)化模型,確保生成的 CAD 指令具有更高的可編譯性和幾何精度。
多視圖到單視圖的知識蒸餾:CADCrafter 通過將多視圖幾何編碼器的知識蒸餾到單視圖編碼器中,提高了單視圖輸入的準確性和魯棒性。
數(shù)據(jù)集貢獻:研究團隊還收集了一個名為 RealCAD 的真實世界數(shù)據(jù)集,包含多視圖圖像和對應的 CAD 指令序列,用于驗證模型的性能。
CADCrafter研究方法
CADCrafter只要通過下面幾個步驟來實現(xiàn)從圖像到CAD模型的轉換:
CAD命令序列編碼:將CAD命令序列編碼為離散和連續(xù)的參數(shù)序列,并通過嵌入空間進行處理。
幾何條件編碼器:提取輸入圖像的深度和法線圖,利用這些幾何特征來增強模型對幾何結構的理解,并減少合成數(shù)據(jù)和真實圖像之間的域差距。
去噪CAD潛在向量:使用基于擴散模型的架構來去噪潛在CAD代碼,該架構通過迭代學習恢復原始潛在向量。
多視圖到單視圖的知識蒸餾:通過將多視圖幾何編碼器的知識蒸餾到單視圖幾何編碼器中,提高單視圖輸入的準確性和魯棒性。
直接偏好優(yōu)化(DPO):通過CAD編譯器的反饋來優(yōu)化模型,確保生成的CAD指令具有更高的可編譯性和幾何精度。
實驗
數(shù)據(jù)集:使用DeepCAD數(shù)據(jù)集進行訓練,并收集了一個名為RealCAD的真實世界數(shù)據(jù)集進行測試。
評估指標:采用命令準確性(Acccmd)、參數(shù)準確性(Accpara)、中位數(shù)Chamfer距離(Med CD)和無效率(IR)來評估模型性能。
結果:
在DeepCAD數(shù)據(jù)集上,CADCrafter在多視圖和單視圖任務中均表現(xiàn)出色,顯著降低了無效率。
在RealCAD數(shù)據(jù)集上,盡管模型僅在合成數(shù)據(jù)上進行訓練,但其在真實世界數(shù)據(jù)上的泛化能力表現(xiàn)良好,保持了高準確性和低無效率。
與現(xiàn)有的圖像到3D模型生成方法(如One-2-3-45、Wonder3D和TripoSR)相比,CADCrafter在幾何精度上表現(xiàn)更好。
CADCrafter應用場景
工業(yè)設計:快速生成可編輯的 CAD 模型,加速原型設計和零件重建。
日常物體建模:通過拍攝日常生活中的物體,直接生成其設計制造時可用的工程文件。
CADCrafter論文:https://arxiv.org/pdf/2504.04753