Stable Diffusion 3:功能有哪些提升與改進?
周四,Stability AI 宣布推出 Stable Diffusion 3,這是該公司圖像生成 ai 模型的最新和最強大的版本。該模型采用擴散變換架構,顯著提高了在多主題提示、圖像質量和拼寫能力方面的性能。
Stable Diffusion 3使用更新的“擴散變壓器”,該技術于 2022 年首創,但在 2023 年進行了修訂,現已實現可擴展性。OpenAI 令人印象深刻的視頻生成器 Sora 顯然也遵循類似的原理(該論文的合著者 Will Peebles 繼續共同領導 Sora 項目)。 Stable Diffusion 3 系列模型(采用稱為“提示”的文本描述并將其轉換為匹配圖像)的大小范圍從 8 億到 80 億個參數不等。尺寸范圍允許不同版本的模型在各種設備(從智能手機到服務器)上本地運行。
Stable Diffusion 3的性能提升與改進:
1、增強的多主題處理能力:新模型顯著提升了對包含多個主題或元素的提示的理解和處理能力。這使得用戶能夠在單一提示中描述更為復雜的場景,而模型則能夠基于這些描述更準確地生成圖像。
2、圖像質量提升:Stable Diffusion 3在生成圖像的質量上實現了顯著提升,包括更精細的細節表現、更準確的顏色匹配以及更自然的光影效果。這些進步讓生成的圖像更逼真,更好地捕捉用戶的創意意圖。
3、改善的拼寫和文本處理:該版本在處理包含文本元素的圖像時(例如標語、標簽等),展現了更優的拼寫和文本理解能力。這意味著模型能更準確地識別和渲染提示中的文字,即便是在復雜的視覺背景下也能做到。
4、采用新型擴散變換技術:Stable Diffusion 3引入了一種新型擴散變換技術,類似于Sora,為模型賦予了更強大的圖像生成能力。Transformer是一種深度學習模型,專為逐步構建圖像細節而設計,以產生高質量的視覺內容。
5、流匹配及其他技術改進:模型整合了流匹配技術及其他技術改進,以進一步提高生成圖像的質量和多樣性。流匹配技術幫助模型更好地理解和模擬圖像中的動態元素和結構,讓生成的圖像在視覺上更加連貫和自然。
6、利用Transformer技術的進步:Stable Diffusion 3充分利用了Transformer技術的最新進展,不僅擴展了模型的能力,還使其能夠處理多模態輸入。這意味著模型能夠處理更復雜和多樣化的數據類型,如結合文本和圖像的輸入,從而在理解和生成圖像內容方面提供更多的靈活性和精確度。
盡管目前已經提及了一些關鍵的技術創新,Stability AI計劃很快發布更多的技術細節。這些細節將為技術社區和感興趣的用戶提供對Stable Diffusion 3技術基礎和創新點的深入了解。
盡管Stable Diffusion 3尚未得到廣泛應用,Stability卻表示,測試一旦結束,用戶便能免費下載其權重,并在本地環境中運行它。Stability在聲明中提到:“正如之前模型的預覽階段一樣,這一階段對于在正式發布前收集反饋、優化性能和提升安全性極為重要?!?/p>
最近,Stability一直在探索多種圖像合成技術。除了SDXL和SDXL Turbo外,該公司上周還推出了Stable Cascade,這是一種通過三階段過程將文字生成圖像的合成技術。另外,Stability AI的另一款文生視頻和圖生視頻產品Stable Video,也在這次公測中推出,為用戶提供了更多選擇。