Leffa:Meta AI開源的用于可控人物圖像生成的工具,適用于虛擬試穿。
Leffa是什么?
Leffa,全稱為Learning Flow Fields in Attention,是由Meta ai開發并開源的一款圖像生成技術。Leffa 是一個統一框架,通過學習注意力中的流場(flow fields),引導目標查詢在訓練期間正確關注參考圖像中的關鍵區域。 該方法通過在基于擴散模型的基線中引入一種正則化損失函數,顯著減少了細節失真,同時保持了高質量的圖像生成。 該技術不僅適用于虛擬試穿,還支持姿勢轉移,并且可以擴展到其他擴散模型。
Leffa核心特點
精確控制:Leffa能夠實現虛擬試衣(將特定衣物圖像自然地應用到人物上)和姿勢遷移(將一個人物的姿勢轉移到另一個圖像中),同時保持人物的原有特征和細節清晰。
高質量生成:通過正則化損失函數和漸進式訓練策略,Leffa優化了模型性能,確保生成的圖像具有高分辨率和細節保真度,減少了紋理模糊和變形問題,。例如,在生成穿著特定服裝的人物圖像時,Leffa 可以很好地保留服裝的紋理和圖案。
模型無關性與泛化能力:Leffa設計為能夠集成到不同的擴散模型中,無需額外參數,這表明它具有良好的通用性和適應性,可以應用于多種AI圖像生成場景。
高效運行:在高性能硬件上,如A100 GPU,Leffa能夠在6秒內生成高質量的人物圖像,支持float16加速,適合快速生成需求。
輕量級部署:支持本地部署、云端推理,并且與Hugging Face等平臺集成,便于開發者和企業快速集成到現有AI工作流程中。
Leffa的技術原理
注意力機制:基于注意力機制,用注意力層將目標圖像(待生成的人物圖像)與參考圖像(提供外觀或姿勢的圖像)關聯起來。
流場學習:基于學習注意力層中的流場(flow fields),顯式指導目標查詢(target query)關注于參考鍵(reference key)的正確區域。
正則化損失:在注意力圖上施加正則化損失,將參考圖像變形以更緊密地與目標圖像對齊,鼓勵模型在訓練期間正確關注參考區域。
空間一致性:基于轉換注意力圖到流場,用網格采樣操作將參考圖像變形,確保目標查詢與參考圖像之間的空間一致性。
模型無關性:作為正則化損失函數,集成到不同的擴散模型中,無需額外參數或復雜的訓練技術。
漸進式訓練:在訓練的最后階段應用,避免早期性能退化,基于結合傳統的擴散損失和Leffa損失進行微調,優化模型性能。
Leffa的應用場景
虛擬試穿:在電子商務和時尚行業中,創建虛擬試衣間,讓消費者在線上看到自己穿上不同服裝的樣子,無需實際試穿。
增強現實(AR):在AR應用中,實時改變或添加用戶的外觀和服裝,提供更加沉浸式的體驗。
游戲和娛樂:在游戲開發中,用在角色定制,玩家根據自己的喜好調整角色的外觀和姿態。
電影和視頻制作:在電影后期制作中,生成或修改人物形象。
Leffa的開源信息
論文:https://arxiv.org/pdf/2412.08486
GitHub倉庫:https://github.com/franciszzj/Leffa
在線體驗Demo:https://huggingface.co/spaces/franciszzj/Leffa
HuggingFace模型庫:https://huggingface.co/franciszzj/Leffa