GPT-4.5與GPT-4o相比,有哪些特點(diǎn)變化或提升?
北京時間凌晨4點(diǎn)鐘Openai舉行一個14分鐘左右的直播活動,發(fā)布最新大模型GPT-4.5,OpenAI在新聞稿中表示,這是公司有史以來最大、最好的聊天模型,在計算效率上較GPT-4提升超過10倍,我們看看,同GPT-4o相比較,具體有哪些改變和提升。
GPT-4.5與GPT-4o相比較有哪些變化?
在知識準(zhǔn)確性和幻覺率方面:GPT - 4.5在AIME2024基準(zhǔn)測試?yán)锏昧?6.7%,GPT - 4o才9.3%,可見GPT - 4.5知識準(zhǔn)確性提升很大。像“人類的第一種語言是什么”這種問題,GPT - 4.5會誠實(shí)說這是未解之謎,幻覺答案減少了。
世界知識和理解上:GPT - 4.5通過多種優(yōu)化有了更廣知識和更深理解能力,不再亂說了,可靠性提高。
人類偏好與對話能力:人類偏好測試?yán)颎PT - 4.5更受歡迎。它能更好理解人類想法,情商更高地對話,對微妙線索和隱含期望把握更細(xì)膩,審美直覺和創(chuàng)造力更強(qiáng)。
技術(shù)進(jìn)步方面:GPT - 4.5有新的可擴(kuò)展技術(shù),能用小模型數(shù)據(jù)訓(xùn)練出強(qiáng)大模型,可引導(dǎo)性、細(xì)節(jié)理解和自然對話能力都提升了。
推理與應(yīng)用能力:GPT - 4.5雖不是專門的推理模型,但簡單有挑戰(zhàn)的知識問題能回答得不錯,代碼編寫、物理問題解決也還行,不過有些地方比不上Claude 3.7這種專門的推理模型。
價格:GPT - 4.5使用成本比GPT - 4o高多了。每百萬輸入輸出費(fèi)用,GPT - 4.5是75美元,GPT - 4o是3美元;輸出費(fèi)用GPT - 4.5是150美元,GPT - 4o是15美元,GPT - 4.5成本是GPT - 4o的好幾倍。
功能與限制方面:GPT - 4.5功能更多,像搜索、文件和圖像上傳、畫布寫作和編碼都能支持,但不支持語音、視頻和屏幕共享等多模態(tài)功能,這方面比GPT - 4o差些。
以下是GPT-4.5與GPT-4o的對比表格:
特性 | GPT-4.5 | GPT-4o |
---|---|---|
發(fā)布時間 | 2025年2月27日 | 2023年3月15日 |
模型規(guī)模 | 1T激活參數(shù)的Transformer MoE架構(gòu) | 較小的參數(shù)規(guī)模 |
訓(xùn)練數(shù)據(jù) | 截至2024年6月的互聯(lián)網(wǎng)全量內(nèi)容 | 相對有限的訓(xùn)練數(shù)據(jù) |
計算效率 | 提升10倍以上 | 較低的計算效率 |
幻覺率 | SimpleQA基準(zhǔn)測試中為37.1% | 較高的幻覺率 |
知識廣度 | 通過無監(jiān)督學(xué)習(xí)擴(kuò)展知識儲備 | 相對有限的知識儲備 |
情感智能 | 能夠識別用戶情緒并提供更具溫度的回應(yīng) | 較低的情感智能 |
對話自然度 | 對話體驗(yàn)更加自然,理解用戶言外之意 | 對話體驗(yàn)較為機(jī)械 |
創(chuàng)造力 | 在寫作、設(shè)計等方面表現(xiàn)出色 | 創(chuàng)造力較弱 |
多模態(tài)能力 | 支持文件和圖片上傳,處理寫作和代碼任務(wù) | 相對較弱的多模態(tài)能力 |
價格 | 輸入75美元/百萬token,輸出150美元/百萬token | 輸入2.50美元/百萬token,輸出10美元/百萬token |
OpenAI的GPT系列模型的發(fā)展歷程
GPT-1:
發(fā)布時間:2018年
特點(diǎn):幾乎無法生成連貫的文本,標(biāo)志著GPT系列的開始。
GPT-2:
發(fā)布時間:2019年
特點(diǎn):能力有限,有時顯得混亂,但開始展現(xiàn)出一些生成連貫文本的能力。
GPT-3:
發(fā)布時間:2020年
特點(diǎn):顯著的飛躍,生成文本的能力大幅提升,成為GPT系列的一個重要里程碑。
GPT-3.5 Turbo:
發(fā)布時間:2022年
特點(diǎn):在某些問題上提供了更準(zhǔn)確和簡潔的答案,但仍有一些改進(jìn)空間。
GPT-4:
發(fā)布時間:2023年3月
特點(diǎn):整體感覺更好,詞語選擇更具創(chuàng)造力,對prompt的理解有所提升,幻覺的頻率略有降低。盡管提升是微妙的,但整體表現(xiàn)更佳。
GPT-4.5:
發(fā)布時間:2025年2月
特點(diǎn):更像人的對話體驗(yàn),情感理解和情商的提升,知識儲備和能力顯著增強(qiáng)。盡管提升微妙,但仍然令人興奮。