首頁 > Ai資訊 > Ai產品

Stable Diffusion 3：功能有哪些提升與改進？

小編于2024-02-23發布在Ai產品

周四，Stability AI 宣布推出 Stable Diffusion 3，這是該公司圖像生成 ai 模型的最新和最強大的版本。該模型采用擴散變換架構，顯著提高了在多主題提示、圖像質量和拼寫能力方面的性能。

Stable Diffusion 3使用更新的“擴散變壓器”，該技術于 2022 年首創，但在 2023 年進行了修訂，現已實現可擴展性。OpenAI 令人印象深刻的視頻生成器 Sora 顯然也遵循類似的原理（該論文的合著者 Will Peebles 繼續共同領導 Sora 項目）。 Stable Diffusion 3 系列模型（采用稱為“提示”的文本描述并將其轉換為匹配圖像）的大小范圍從 8 億到 80 億個參數不等。尺寸范圍允許不同版本的模型在各種設備（從智能手機到服務器）上本地運行。

Stable Diffusion 3的性能提升與改進：

1、增強的多主題處理能力：新模型顯著提升了對包含多個主題或元素的提示的理解和處理能力。這使得用戶能夠在單一提示中描述更為復雜的場景，而模型則能夠基于這些描述更準確地生成圖像。

2、圖像質量提升：Stable Diffusion 3在生成圖像的質量上實現了顯著提升，包括更精細的細節表現、更準確的顏色匹配以及更自然的光影效果。這些進步讓生成的圖像更逼真，更好地捕捉用戶的創意意圖。

3、改善的拼寫和文本處理：該版本在處理包含文本元素的圖像時（例如標語、標簽等），展現了更優的拼寫和文本理解能力。這意味著模型能更準確地識別和渲染提示中的文字，即便是在復雜的視覺背景下也能做到。

4、采用新型擴散變換技術：Stable Diffusion 3引入了一種新型擴散變換技術，類似于Sora，為模型賦予了更強大的圖像生成能力。Transformer是一種深度學習模型，專為逐步構建圖像細節而設計，以產生高質量的視覺內容。

5、流匹配及其他技術改進：模型整合了流匹配技術及其他技術改進，以進一步提高生成圖像的質量和多樣性。流匹配技術幫助模型更好地理解和模擬圖像中的動態元素和結構，讓生成的圖像在視覺上更加連貫和自然。

6、利用Transformer技術的進步：Stable Diffusion 3充分利用了Transformer技術的最新進展，不僅擴展了模型的能力，還使其能夠處理多模態輸入。這意味著模型能夠處理更復雜和多樣化的數據類型，如結合文本和圖像的輸入，從而在理解和生成圖像內容方面提供更多的靈活性和精確度。

盡管目前已經提及了一些關鍵的技術創新，Stability AI計劃很快發布更多的技術細節。這些細節將為技術社區和感興趣的用戶提供對Stable Diffusion 3技術基礎和創新點的深入了解。

盡管Stable Diffusion 3尚未得到廣泛應用，Stability卻表示，測試一旦結束，用戶便能免費下載其權重，并在本地環境中運行它。Stability在聲明中提到：“正如之前模型的預覽階段一樣，這一階段對于在正式發布前收集反饋、優化性能和提升安全性極為重要。”

最近，Stability一直在探索多種圖像合成技術。除了SDXL和SDXL Turbo外，該公司上周還推出了Stable Cascade，這是一種通過三階段過程將文字生成圖像的合成技術。另外，Stability AI的另一款文生視頻和圖生視頻產品Stable Video，也在這次公測中推出，為用戶提供了更多選擇。