首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 頭條資訊 >> 正文

文生圖功能升級(jí) ChatGPT追擊

2025年3月27日 08:16  北京商報(bào)  

轉(zhuǎn)自:北京商報(bào)

AI圖像生成領(lǐng)域傳來(lái)了新進(jìn)展。當(dāng)?shù)貢r(shí)間3月25日,OpenAI在直播中對(duì)GPT-4o和Sora進(jìn)行更新,并宣布其最新一代多模態(tài)模型GPT-4o正式集成“迄今為止最先進(jìn)的圖像生成器”,并開(kāi)放免費(fèi)使用。這一動(dòng)作被業(yè)界視為對(duì)同日凌晨Google發(fā)布的Gemini 2.5 Pro Experimental模型的直接狙擊。兩大巨頭的同日“對(duì)壘”,標(biāo)志著生成式AI競(jìng)賽進(jìn)入白熱化階段。

攻克“生成圖像中的文字”難題

據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長(zhǎng)準(zhǔn)確呈現(xiàn)文本,并精準(zhǔn)遵循提示詞,該功能還會(huì)將GPT-4o的知識(shí)庫(kù)和聊天上下文作為靈感來(lái)源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費(fèi)用戶使用,并計(jì)劃隨后向企業(yè)、教育和API使用者推出。

在OpenAI的示例中,要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫(xiě)字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫(xiě)的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫(huà)面,且白板上的字不會(huì)變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

生成圖像中的文字,此前是圖像生成領(lǐng)域的一個(gè)難題。ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨(dú)立的系統(tǒng)。國(guó)內(nèi)廠商中,去年豆包升級(jí)文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個(gè)支持生成漢字的開(kāi)源文生圖模型CogView4。

就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺(jué)流暢性,生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點(diǎn),OpenAI還表示,用戶可以通過(guò)自然對(duì)話與大模型交流,要求大模型改進(jìn)圖像,在這個(gè)過(guò)程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢,可以同時(shí)要求大模型處理10到20個(gè)不同的對(duì)象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對(duì)比其他圖像生成系統(tǒng)時(shí)稱,其他系統(tǒng)只能同時(shí)處理5到8個(gè)對(duì)象。

不過(guò),OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺(jué)、難以呈現(xiàn)太多依賴知識(shí)庫(kù)的圖像要素(例如元素周期表)、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語(yǔ)言時(shí)可能容易出現(xiàn)幻覺(jué)、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。

一位從業(yè)者對(duì)北京商報(bào)記者表示,GPT-4o圖像生成確實(shí)強(qiáng)大,但完全替代UI設(shè)計(jì)師還早,創(chuàng)意和細(xì)節(jié)還得靠人。“88分的設(shè)計(jì)流,剩下12分才是設(shè)計(jì)師的真正價(jià)值!

GPT-5路線圖

此次更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項(xiàng)技術(shù),包括推理模型o3的技術(shù),GPT-5可能會(huì)在未來(lái)幾個(gè)月內(nèi)推出。

相比于之前一直不明確GPT-5的推出節(jié)點(diǎn),奧爾特曼突然官宣GPT路線圖,或許是因?yàn)镺penAI面臨用戶流失的壓力。奧爾特曼此前表示,DeepSeek讓OpenAI的領(lǐng)先優(yōu)勢(shì)不會(huì)像前幾年那么大了,并稱個(gè)人認(rèn)為在開(kāi)源權(quán)重模型和研究成果的問(wèn)題上,OpenAI已經(jīng)站在了歷史的錯(cuò)誤一邊,需要制定不同的開(kāi)源策略。

此前據(jù)《華爾街日?qǐng)?bào)》報(bào)道,OpenAI內(nèi)部代號(hào)為“獵戶座”(Orion)的GPT-5項(xiàng)目的開(kāi)發(fā)已持續(xù)近兩年,目前面臨嚴(yán)峻挑戰(zhàn)。按原計(jì)劃,該項(xiàng)目應(yīng)在2024年年中完成,但現(xiàn)在進(jìn)度嚴(yán)重滯后。

OpenAI已經(jīng)進(jìn)行了至少兩次大型訓(xùn)練,每次訓(xùn)練都需要數(shù)月時(shí)間處理大量數(shù)據(jù),目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示,如果說(shuō)GPT-4的表現(xiàn)相當(dāng)于一個(gè)優(yōu)秀高中生,那么GPT-5的目標(biāo)是要在某些任務(wù)上達(dá)到博士水平。然而熟悉該項(xiàng)目的人士表示,“獵戶座”的訓(xùn)練每次都會(huì)出現(xiàn)新問(wèn)題,軟件也達(dá)不到研究人員的預(yù)期。

東吳證券(7.920,-0.03,-0.38%)發(fā)布研報(bào)稱,判斷OpenAI對(duì)大模型的產(chǎn)品線與預(yù)期曾進(jìn)行過(guò)調(diào)整。GPT-5的發(fā)布時(shí)間或提前,或由于DeepSeek近期的重磅更新和亮眼表現(xiàn)對(duì)OpenAI產(chǎn)品版圖構(gòu)成了威脅,進(jìn)而希望加快產(chǎn)品迭代步伐。

外部競(jìng)爭(zhēng)

困擾OpenAI的不只是數(shù)據(jù)和成本,外部競(jìng)爭(zhēng)同樣關(guān)鍵。就在OpenAI宣布更新的大約一小時(shí)前,谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。該模型基于多模態(tài)大語(yǔ)言框架升級(jí),顯著增強(qiáng)了推理能力、多語(yǔ)言支持及長(zhǎng)文本處理能力。

谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”,Gemini 2.5 Pro實(shí)驗(yàn)版本在多項(xiàng)基準(zhǔn)測(cè)試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。據(jù)官方介紹,Gemini 2.5通過(guò)優(yōu)化算法架構(gòu),將響應(yīng)速度提升40%,能耗降低25%。在關(guān)鍵指標(biāo)測(cè)試中,其復(fù)雜邏輯任務(wù)完成度較前代提升65%,尤其在醫(yī)療診斷輔助、法律文書(shū)生成等垂直領(lǐng)域展現(xiàn)出更高精度。

Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口達(dá)100萬(wàn)token(約75萬(wàn)單詞),可解析完整《指環(huán)王》系列文本,未來(lái)將升級(jí)至200萬(wàn)token。谷歌表示,“推理”能力不僅僅指分類和預(yù)測(cè),而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策的能力。

該模型一經(jīng)發(fā)布,便在各大基準(zhǔn)測(cè)試上全面“屠榜”,在所有測(cè)試中都穩(wěn)居第一名的位置,包括常見(jiàn)的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試。在推理能力方面,Gemini 2.5 Pro在一系列需要高級(jí)推理的基準(zhǔn)測(cè)試中都處于領(lǐng)先地位。在“人類的最后考試”中(一個(gè)由數(shù)百名學(xué)科專家設(shè)計(jì)的數(shù)據(jù)集,旨在捕捉人類知識(shí)和推理的前沿),它在未使用工具的模型中也獲得了18.8%的最高分?jǐn)?shù),這是目前最先進(jìn)的成績(jī)。

谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫(xiě)道:“現(xiàn)在,通過(guò)Gemini 2.5,我們結(jié)合了顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)后的后續(xù)訓(xùn)練,實(shí)現(xiàn)了全新的性能水平。未來(lái),我們將把這種思維能力直接構(gòu)建到我們所有的模型中,使其能夠處理更復(fù)雜的問(wèn)題,并支持更強(qiáng)大、更具情境感知能力的智能體!

研究機(jī)構(gòu)Gartner預(yù)測(cè),到2026年,多模態(tài)生成模型的商業(yè)價(jià)值將占AI市場(chǎng)的45%。隨著谷歌與微軟等巨頭持續(xù)加碼,生成式AI正從通用工具向產(chǎn)業(yè)基礎(chǔ)設(shè)施演變,但其社會(huì)倫理、監(jiān)管框架的完善也有待各方共同探索。

北京商報(bào)記者 趙天舒

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中興通訊董事長(zhǎng)李自學(xué):算力筑基、 AI 啟智,共迎數(shù)智化新紀(jì)元
精彩專題
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
低空經(jīng)濟(jì)2025:助力中國(guó)經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像