Seedream 3.0:字節跳動推出的高性能中英雙語圖像生成模型
Seedream 3.0是什么?
Seedream 3.0 是字節跳動 Seed 團隊最新發布的一款原生高分辨率、支持中英雙語的圖像生成基礎模型。它可以生成 2K 分辨率圖像,出圖只需 3 秒,并且支持小字體、多行文本排版,中英字符可用率均達 94%。Seedream 3.0 已在自已的平臺即夢、豆包等開放,適用于海報設計、廣告創作、平面設計、影視場景生成等多種場景。
性能提升
高分辨率生成:Seedream 3.0 可以原生直出 2K 分辨率的圖像,無需后期處理,能夠滿足從手機屏幕到巨幅海報等各種視覺需求。
極速生成:該模型的出圖速度極快,僅需約 3 秒就能生成 1K 分辨率的高品質圖像,相比業界同類模型的 10 秒以上甚至更長時間,以及之前文生圖 SOTA 模型 GPT-4o 的 77 秒平均耗時,優勢明顯。
文本處理能力
小字體高保真生成:解決了業界在小字體生成方面的難題,能夠生成清晰、準確的小字體內容。
多行文本排版:在多行文本排版方面表現出色,提升了文本的布局自然度和語義連貫性。
雙語支持:對中英雙語都有較強的支持,中文和英文字符的文本可用率均達到 94%,基本解決了文本渲染在圖像生成中的掣肘問題。
圖像質量與美感
美感與結構優化:生成的圖像在美感和結構上進一步提升,指令遵循性增強,出圖更具感染力,能夠生成高品質的構圖和色彩搭配。
逼真人像生成:在人像真實感方面表現突出,可以生成帶有皺紋、絨毛和疤痕等真實特征的皮膚質感,逼真度已基本接近專業攝影水平。
技術創新
數據優化:通過圖像缺陷感知擴充數據集,采用視覺語義協同采樣策略和自研圖文檢索系統改進數據分布。
預訓練與后訓練:在預訓練階段,使用跨模態旋轉位置編碼加強文字渲染能力,借助多分辨率混合訓練實現 2K 圖像直出,并采用新的損失函數提升訓練效果;在后訓練 RLHF 階段,設計多粒度美感描述,拓展獎勵模型規模,提升模型性能。
推理加速:采用一致性噪聲預測和平穩采樣過程,利用重要時間步采樣加速模型蒸餾訓練,實現 1K 分辨率生圖端到端僅需 3 秒。
應用場景
專業海報設計:解決多行文本排版、小字高保真生成難題
影視特效制作:支持角色皮膚細節生成(如皺紋、毛發等)
數字藝術創作:可生成色彩準確、紋理豐富的藝術作品
詳細介紹:https://team.doubao.com/zh/tech/seedream3_0