PosterCraft：高質(zhì)量海報生成框架

映技派于2025-06-24發(fā)布在Ai產(chǎn)品

PosterCraft 是 2025 年 6 月由香港科技大學(xué)（廣州）、美團、廈門大學(xué)和新加坡國立大學(xué)研究團隊聯(lián)合提出的海報生成框架，PosterCraft通過文字精準渲染與美學(xué)風格優(yōu)化，結(jié)合區(qū)域感知校準和強化學(xué)習(xí)技術(shù)，增強海報的藝術(shù)完整性與整體協(xié)調(diào)性。同時借助視覺 - 語言反饋機制，經(jīng)多模態(tài)修正優(yōu)化美學(xué)效果。

在數(shù)據(jù)集構(gòu)建上，PosterCraft 開發(fā)了多個高質(zhì)量數(shù)據(jù)集，滿足不同文本渲染和海報生成需求，為符合人類審美標準的海報創(chuàng)作奠定基礎(chǔ)。

PosterCraft：高質(zhì)量海報生成框架 .io.webp

其核心功能包括：

精確文字渲染：在高質(zhì)量背景上準確呈現(xiàn)多樣化文字，確保文字與背景和諧統(tǒng)一，解決文本渲染保真度不足的問題。
美學(xué)風格優(yōu)化：利用區(qū)域感知校準技術(shù)，強化海報藝術(shù)完整性，保持文字準確性，構(gòu)建文字與背景的和諧視覺關(guān)系。
美學(xué)偏好優(yōu)化：通過強化學(xué)習(xí)技術(shù)，依據(jù)整體美學(xué)標準優(yōu)化輸出，減少字體渲染缺陷，使模型學(xué)習(xí)構(gòu)圖平衡、色彩和諧等高階美學(xué)偏好。
視覺 - 語言反饋：借助聯(lián)合視覺 - 語言調(diào)節(jié)機制，結(jié)合視覺信息與針對性文字建議進行多模態(tài)修正，逐步優(yōu)化海報美學(xué)內(nèi)容與背景協(xié)調(diào)性。

PosterCraft 的工作流程分為四個階段：

文本渲染優(yōu)化：在自建的 Text-Render-2M 數(shù)據(jù)集（包含 200 萬高質(zhì)量文本渲染示例，支持多實例文本渲染及多樣化文本選擇）上大規(guī)模訓(xùn)練，提升模型文本渲染保真度。
海報風格微調(diào)：使用 HQ-Poster-100K 數(shù)據(jù)集（10 萬張高質(zhì)量海報集合，采用先進過濾技術(shù)、多模態(tài)評分系統(tǒng)等）和區(qū)域感知校準策略微調(diào)，使模型學(xué)習(xí)文本與背景的和諧共存。
美學(xué)文本強化學(xué)習(xí)：采用基于 best-of-n 的 DPO 策略，讓模型從多個版本海報的對比中學(xué)習(xí)構(gòu)圖平衡、色彩和諧等高階美學(xué)偏好。
視覺 - 語言反饋：引入基于 VLM 的多模態(tài)反饋，在生成過程中對內(nèi)容和風格進行迭代精煉與修正，生成后可根據(jù)設(shè)計建議調(diào)整優(yōu)化。

該框架的技術(shù)優(yōu)勢體現(xiàn)在：

統(tǒng)一框架設(shè)計：摒棄 “規(guī)劃 - 生成” 模塊化流程，實現(xiàn)文本輸入到海報輸出的端到端生成，保證視覺連貫性。
自動化數(shù)據(jù)集構(gòu)建：為各優(yōu)化階段設(shè)計專屬全自動數(shù)據(jù)集，解決數(shù)據(jù)稀缺問題。
級聯(lián)優(yōu)化策略：

大規(guī)模文本渲染優(yōu)化：利用高質(zhì)量數(shù)據(jù)集專注文本渲染，保證背景渲染能力。
區(qū)域感知校準：微調(diào)時對文本和非文本區(qū)域賦予不同權(quán)重，保留文本清晰度并強化藝術(shù)風格。
基于偏好的強化學(xué)習(xí)：通過 “最優(yōu) / 最差” 樣本對學(xué)習(xí)，注入人類美學(xué)偏好。
多模態(tài)反饋循環(huán)：推理時引入多模態(tài)生成修正建議，融入條件輸入迭代優(yōu)化結(jié)果。

測試表明，PosterCraft 在文本渲染準確性、美學(xué)質(zhì)量和布局結(jié)構(gòu)等方面持續(xù)超越現(xiàn)有先進方法，與商業(yè)系統(tǒng)相比也具競爭力。該模型能處理復(fù)雜提示并保持視覺一致性，無論長文本還是短提示都可生成高質(zhì)量海報。其優(yōu)勢在于從單一提示直接生成海報，無需額外模塊或人工調(diào)整，為電影海報、活動宣傳、產(chǎn)品推廣等場景提供快速高效的可擴展解決方案，且不降低美學(xué)質(zhì)量。