Seedream 3.0:字節(jié)跳動推出的高性能中英雙語圖像生成模型
Seedream 3.0是什么?
Seedream 3.0 是字節(jié)跳動 Seed 團(tuán)隊(duì)最新發(fā)布的一款原生高分辨率、支持中英雙語的圖像生成基礎(chǔ)模型。它可以生成 2K 分辨率圖像,出圖只需 3 秒,并且支持小字體、多行文本排版,中英字符可用率均達(dá) 94%。Seedream 3.0 已在自已的平臺即夢、豆包等開放,適用于海報設(shè)計(jì)、廣告創(chuàng)作、平面設(shè)計(jì)、影視場景生成等多種場景。
性能提升
高分辨率生成:Seedream 3.0 可以原生直出 2K 分辨率的圖像,無需后期處理,能夠滿足從手機(jī)屏幕到巨幅海報等各種視覺需求。
極速生成:該模型的出圖速度極快,僅需約 3 秒就能生成 1K 分辨率的高品質(zhì)圖像,相比業(yè)界同類模型的 10 秒以上甚至更長時間,以及之前文生圖 SOTA 模型 GPT-4o 的 77 秒平均耗時,優(yōu)勢明顯。
文本處理能力
小字體高保真生成:解決了業(yè)界在小字體生成方面的難題,能夠生成清晰、準(zhǔn)確的小字體內(nèi)容。
多行文本排版:在多行文本排版方面表現(xiàn)出色,提升了文本的布局自然度和語義連貫性。
雙語支持:對中英雙語都有較強(qiáng)的支持,中文和英文字符的文本可用率均達(dá)到 94%,基本解決了文本渲染在圖像生成中的掣肘問題。
圖像質(zhì)量與美感
美感與結(jié)構(gòu)優(yōu)化:生成的圖像在美感和結(jié)構(gòu)上進(jìn)一步提升,指令遵循性增強(qiáng),出圖更具感染力,能夠生成高品質(zhì)的構(gòu)圖和色彩搭配。
逼真人像生成:在人像真實(shí)感方面表現(xiàn)突出,可以生成帶有皺紋、絨毛和疤痕等真實(shí)特征的皮膚質(zhì)感,逼真度已基本接近專業(yè)攝影水平。
技術(shù)創(chuàng)新
數(shù)據(jù)優(yōu)化:通過圖像缺陷感知擴(kuò)充數(shù)據(jù)集,采用視覺語義協(xié)同采樣策略和自研圖文檢索系統(tǒng)改進(jìn)數(shù)據(jù)分布。
預(yù)訓(xùn)練與后訓(xùn)練:在預(yù)訓(xùn)練階段,使用跨模態(tài)旋轉(zhuǎn)位置編碼加強(qiáng)文字渲染能力,借助多分辨率混合訓(xùn)練實(shí)現(xiàn) 2K 圖像直出,并采用新的損失函數(shù)提升訓(xùn)練效果;在后訓(xùn)練 RLHF 階段,設(shè)計(jì)多粒度美感描述,拓展獎勵模型規(guī)模,提升模型性能。
推理加速:采用一致性噪聲預(yù)測和平穩(wěn)采樣過程,利用重要時間步采樣加速模型蒸餾訓(xùn)練,實(shí)現(xiàn) 1K 分辨率生圖端到端僅需 3 秒。
應(yīng)用場景
專業(yè)海報設(shè)計(jì):解決多行文本排版、小字高保真生成難題
影視特效制作:支持角色皮膚細(xì)節(jié)生成(如皺紋、毛發(fā)等)
數(shù)字藝術(shù)創(chuàng)作:可生成色彩準(zhǔn)確、紋理豐富的藝術(shù)作品
詳細(xì)介紹:https://team.doubao.com/zh/tech/seedream3_0