OpenAI GPT-4o模型推出重大更新:為ChatGPT增加了圖像生成和編輯功能
Openai于2025年3月25日正式宣布在GPT-4o模型中集成圖像編輯和視覺生成功能,用戶可以通過對話式來生成圖像、修改現有視覺內容,甚至設計復雜的材料,如圖表、菜單和地圖等。
功能特點:
實時迭代:用戶可以實時迭代圖像請求,例如要求生成“城市中的蝸牛”,然后通過改變背景或添加配飾來細化場景。
復雜指令處理:該系統能夠處理更復雜的圖像構圖指令。
文本渲染改進:GPT-4o在圖像中渲染清晰且結構化的文本方面有了顯著提升,使其能夠更好地生成信息圖表、圖表、標志等專業視覺內容。
“修復”功能:用戶可以對現有圖像進行“修復”,編輯前景和背景元素,即使照片中有人物也適用。
性能與速度
雖然GPT-4o處理圖像請求的速度比其前身DALL·E 3慢,但生成的圖像更準確、更詳細。圖像生成可能需要長達一分鐘的時間。
數據訓練
OpenAI表示,GPT-4o的圖像能力訓練使用了“公開可用的數據”,以及來自合作伙伴(如Shutterstock)的專有內容。
技術改進
多模態生成:GPT-4o的圖像生成器與文本生成器集成在同一模型中,能夠更好地結合文本和圖像。
自回歸生成方式:與DALL-E 3等擴散模型不同,GPT-4o采用自回歸方式,從左到右、從上到下逐步生成圖像,這可能是其文本渲染和對象綁定能力更強的原因。
這個功能更新現在對OpenAI每月200美元的Pro計劃訂閱用戶開放,然后擴展到免費和Plus層級用戶,還有就是通過OpenAI API的開發者。
詳細情況:https://openai.com/index/introducing-4o-image-generation/
相關文章
OpenAI GPT-4.1官方提示工程指南
2025-04-16