每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數(shù)據(jù)物聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)量子
云計算互聯(lián)網(wǎng)
報告衛(wèi)星

AI的瘋狂三月：本地能力再提升，云上掀起動漫風(fēng)

2025年4月3日 07:24CCTIME飛象網(wǎng)作者：魏德齡

飛象原創(chuàng)（魏德齡/文）剛剛過去的三月，人工智能的功能升級可謂一個爆款接著又一個爆款，無論是面向本地部署的Gemma，還是ChatGPT在社交媒體平臺上掀起的日式動漫風(fēng)。假如說以前的人工智能領(lǐng)域還是每年春節(jié)一爆款的話，這次則是直接開啟了“瘋狂三月”。

本地能力再提升

27B的參數(shù)量能力卻可以超過671B的模型，只需一張H100顯卡，就能在本地實現(xiàn)媲美云端的高效推理。谷歌開源的最新多模態(tài)大模型Gemma-3在這個3月成為很多用戶的最新本地AI部署嘗試。

Gemma 3提供四種不同參數(shù)規(guī)模的選項，分別為1B、4B、12B和27B參數(shù)。除了1B外，其他三種均支持多模態(tài)，輕松構(gòu)建能夠分析圖像、文本和短視頻的應(yīng)用，開啟交互式智能應(yīng)用的新可能。這一小參數(shù)量的特性能夠讓包括手機、筆記本電腦和工作站等設(shè)備在本地運行高性能的模型。

從上圖不難發(fā)現(xiàn)，Gemma 3在同等規(guī)模下展現(xiàn)了業(yè)界領(lǐng)先的性能，在LMArena榜單評估中超越了Llama3-405B、DeepSeek-V3和o3-mini。這意味著可以在單個GPU或TPU上部署媲美甚至超越云端AI的體驗。

此外，Gemma 3具有強大的語言處理能力。其原生支持35種語言，并且預(yù)訓(xùn)練支持140多種語言，幫助開發(fā)者構(gòu)建全球化的AI應(yīng)用。Gemma 3的128k-token超長上下文窗口，使得AI模型能夠理解和處理更加復(fù)雜和海量的信息。這一能力的提升，使得本地AI能夠在處理長文本、大規(guī)模數(shù)據(jù)分析等任務(wù)時，展現(xiàn)出更強的處理能力，為需要高精度和高效能的行業(yè)應(yīng)用提供了有力支持。

Gemma 3還支持函數(shù)調(diào)用和結(jié)構(gòu)化輸出，幫助開發(fā)者構(gòu)建智能工作流，進一步簡化AI應(yīng)用的開發(fā)過程。這使得開發(fā)者能夠更容易地構(gòu)建出符合特定需求的AI應(yīng)用，快速實現(xiàn)業(yè)務(wù)自動化和智能化，提高工作效率。

阿里巴巴最近發(fā)布并開源的Qwen2.5-Omni大模型同樣帶來了本地AI能力的又一次提升，作為首個端到端的全模態(tài)大模型，Qwen2.5-Omni能夠同時處理文本、圖像、音頻和視頻等多種輸入，并實時生成文本與自然語音合成輸出，顯著提升了AI在多維度、多感官的認知與交互能力。

輕量級的設(shè)計同樣是Qwen2.5-Omni的一大亮點，能夠以僅7B參數(shù)的小尺寸展現(xiàn)了同樣強大的性能，即便在手機上，也能輕松部署和應(yīng)用Qwen2.5-Omni模型。當(dāng)前，Qwen2.5-Omni已在魔搭社區(qū)和Hugging Face同步開源。

根據(jù)測試成績顯示，Qwen2.5-Omni全維度超Google的Gemini-1.5-Pro等同類模型，刷新業(yè)界紀錄。這一表現(xiàn)意味著，Qwen2.5-Omni不僅具備強大的處理能力，還能更智能、更自然地應(yīng)對復(fù)雜任務(wù)。在面對多感官輸入時，Qwen2.5-Omni能夠模擬人類的認知方式，通過音視頻識別情緒，做出更加精準、富有情感的反饋與決策。

端側(cè)AI繼續(xù)著著小規(guī)模高性能的目標(biāo)前進，而云端AI更是在3月成為網(wǎng)紅級別的存在，在全網(wǎng)掀起了一波又一波的P圖秀。

云上掀起動漫風(fēng)

其實在ChatGPT 4o掀起線上動漫風(fēng)之前，Google在擴大了Gemini 2.0 Flash模型圖像生成功能的訪問權(quán)限后，就已經(jīng)讓人們感受了AI修圖的強大實力。其中一項重大功能便是能夠去除圖片中的水印，對于水印過多的圖片，甚至還能嘗試填補因水印刪除而產(chǎn)生的空白區(qū)域。

當(dāng)然，這一強大的功能也引來了業(yè)界對于版權(quán)問題的擔(dān)憂，其中一大問題就在于付費照片的銷售。一些線上拍照服務(wù)，會以水印的形式呈現(xiàn)給用戶照片圖片，通過后續(xù)付費來解鎖無水印的原圖。然而隨著這一高效且強大的去水印功能出現(xiàn)，無疑會讓很多公司產(chǎn)生疑慮。

同樣是在3月，ChatGPT 4o也帶來了一波圖像能力的升級更新，推出基于GPT-4o模型的原生圖像生成功能，不再調(diào)用獨立的DALL-E文生圖模型。利用GPT-4o的多模態(tài)能力，ChatGPT在圖像生成時能更加精確地遵循指示、更精確地渲染圖像上的文字，同時支持多輪迭代優(yōu)化圖像時保持角色形象一致。

隨之被用戶發(fā)掘出最吸引人的功能便在于可以將用戶上傳的圖片，重新繪制成其他繪畫風(fēng)格的作品，其中尤以漫畫風(fēng)格最為討喜，于是，轉(zhuǎn)換生成的吉卜力風(fēng)格作品瞬間引爆互聯(lián)網(wǎng)，用戶們不僅將自己的日常生活照片進行轉(zhuǎn)換，還將重要歷史時刻、網(wǎng)絡(luò)梗圖同樣進行了轉(zhuǎn)換，ChatGPT 4o均能做到傳神般的寫照。

此外，轉(zhuǎn)換出來的動漫圖片，還能配合其他AI視頻生成工具，重制一些電影內(nèi)容，制作出新的動畫短片。例如，國外AI影片創(chuàng)作者PJAce先通過ChatGPT 4o生成了102張魔戒電影預(yù)告片的轉(zhuǎn)換圖片，隨后又利用可靈進行動畫處理器，最終完整重現(xiàn)了一部吉卜力風(fēng)格的《魔戒首部曲：魔戒現(xiàn)身》預(yù)告片。

巨大的使用熱情也讓ChatGPT的算力開始不堪重負，OpenAI CEO Sam Altman在28日時表示：“該功能開始暫時受限，我們的GPU正在‘融化’，Open AI正在嘗試優(yōu)化效率。”隨即，很多用戶也發(fā)現(xiàn)該功能已經(jīng)無法長時間使用，甚至可能會直接拒絕生成以“吉卜力”為關(guān)鍵詞指令的請求。

人工智能上演的瘋狂三月，顯然大有一石激起千層浪的勢頭，端側(cè)模型的能力升級，可能又將進一步推動一些企業(yè)的本地部署進程。云端圖像能力的提升，仿佛又打開了AI應(yīng)用的新世界的大門，不過版權(quán)問題也隨之而來，修圖應(yīng)用公司也可能開始心里發(fā)慌，但對于眾多使用者來說，無疑也度過了一個興奮嘗試的滿足三月。

編輯：魏德齡

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。