隨著6G時(shí)代的到來,沉浸式內(nèi)容消費(fèi)需求顯著增長(zhǎng),沉浸內(nèi)容的展現(xiàn)將直接影響用戶體驗(yàn)。其中,網(wǎng)格模型作為一種主流的數(shù)據(jù)形式,網(wǎng)格模型質(zhì)量評(píng)價(jià)成為保障VR/AR、元宇宙等應(yīng)用用戶體驗(yàn)的關(guān)鍵。本報(bào)告系統(tǒng)分析了當(dāng)前網(wǎng)格模型質(zhì)量評(píng)價(jià)的發(fā)展現(xiàn)狀與面臨的主要挑戰(zhàn),包括數(shù)據(jù)集不足、動(dòng)態(tài)/AIGC內(nèi)容質(zhì)量評(píng)價(jià)研究難點(diǎn)和缺少統(tǒng)一標(biāo)準(zhǔn)。針對(duì)這些問題,報(bào)告進(jìn)一步探討了可行的發(fā)展建議,旨在推動(dòng)沉浸內(nèi)容質(zhì)量評(píng)價(jià)技術(shù)的進(jìn)步,促進(jìn)沉浸式應(yīng)用生態(tài)的健康發(fā)展。
網(wǎng)格模型質(zhì)量評(píng)價(jià)發(fā)展現(xiàn)狀
隨著6G時(shí)代的到來,沉浸式內(nèi)容消費(fèi)需求顯著增長(zhǎng),虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、元宇宙等業(yè)務(wù)迎來飛速發(fā)展。其中,以頂點(diǎn)、連接邊、連接面片為基礎(chǔ)描述三維物體的網(wǎng)格模型(Mesh)作為沉浸內(nèi)容中主流的數(shù)據(jù)表達(dá)形式,其質(zhì)量直接決定模型的呈現(xiàn)效果。
然而,由于網(wǎng)格模型數(shù)據(jù)的生成方式多樣(如3D掃描、算法重建、人工建模等),導(dǎo)致其數(shù)據(jù)質(zhì)量參差不齊,存在幾何結(jié)構(gòu)失真、紋理信息缺失或瑕疵、拓?fù)溴e(cuò)誤等問題,直接影響用戶的沉浸式體驗(yàn)與感知質(zhì)量。
因此,建立一套系統(tǒng)化、客觀化的網(wǎng)格模型質(zhì)量評(píng)價(jià)(Mesh Quality Assessment,MQA)方法顯得尤為重要。具備客觀、精確的MQA能力,不僅有助于衡量網(wǎng)格模型的表現(xiàn)質(zhì)量,也為優(yōu)化內(nèi)容生產(chǎn)流程、提升用戶體驗(yàn)提供了重要支撐。
目前,MQA的發(fā)展已經(jīng)歷多個(gè)階段,技術(shù)路線和研究重點(diǎn)不斷演進(jìn),具體如下:
階段一:幾何結(jié)構(gòu)質(zhì)量評(píng)價(jià)起步階段
在MQA發(fā)展的初期,評(píng)價(jià)重點(diǎn)主要集中于網(wǎng)格模型的幾何結(jié)構(gòu)質(zhì)量。此階段業(yè)內(nèi)構(gòu)建了點(diǎn)云或無紋理的網(wǎng)格模型數(shù)據(jù)質(zhì)量評(píng)價(jià)數(shù)據(jù)集[5]。評(píng)價(jià)方法包括基于頂點(diǎn)坐標(biāo)、法線夾角等幾何參數(shù),或借助神經(jīng)網(wǎng)絡(luò)計(jì)算模型的正交性、光滑性等物理屬性,從而量化其幾何結(jié)構(gòu)質(zhì)量。
階段二:彩色網(wǎng)格模型與渲染質(zhì)量評(píng)價(jià)階段
隨著帶紋理的彩色網(wǎng)格模型數(shù)據(jù)逐漸普及,業(yè)內(nèi)構(gòu)建了包含紋理信息的質(zhì)量評(píng)價(jià)數(shù)據(jù)集[4],并發(fā)布了相關(guān)基準(zhǔn)測(cè)試(benchmark)。在幾何質(zhì)量的基礎(chǔ)上,研究開始關(guān)注渲染圖像的主觀質(zhì)量評(píng)價(jià)。典型做法是將網(wǎng)格模型從多個(gè)視角渲染為圖像,并采用圖像質(zhì)量評(píng)價(jià)方法對(duì)渲染結(jié)果進(jìn)行分析,以衡量模型整體表現(xiàn)。
階段三:有參考模型的失真評(píng)價(jià)階段
隨著網(wǎng)格模型數(shù)據(jù)在壓縮、傳輸?shù)葢?yīng)用場(chǎng)景中的廣泛使用,該階段主要關(guān)注模型在處理過程中產(chǎn)生的失真。業(yè)內(nèi)通過對(duì)原始網(wǎng)格模型模型施加人為失真,構(gòu)建有參考的數(shù)據(jù)集[1][2],并發(fā)布相關(guān)benchmark。評(píng)價(jià)方法主要包括從原始模型與失真模型中提取特征、計(jì)算其差異,并基于差值的量化結(jié)果判斷失真模型的質(zhì)量損失程度。
階段四:AIGC驅(qū)動(dòng)下的新興評(píng)價(jià)需求階段
隨著AIGC技術(shù)的迅猛發(fā)展,出現(xiàn)了text-to-3D、image-to-3D等網(wǎng)格生成方法。復(fù)旦大學(xué)與上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)已開源相關(guān)的文生3D工具用于數(shù)據(jù)生產(chǎn)。為應(yīng)對(duì)AIGC生成數(shù)據(jù)的質(zhì)量評(píng)價(jià)挑戰(zhàn),業(yè)內(nèi)構(gòu)建了AIGC產(chǎn)出的網(wǎng)格模型數(shù)據(jù)質(zhì)量評(píng)價(jià)數(shù)據(jù)集[3]。由于該類數(shù)據(jù)并非源自真實(shí)世界采樣,除了傳統(tǒng)的幾何結(jié)構(gòu)和渲染質(zhì)量評(píng)價(jià)外,還需額外考慮幾何合理性、幾何細(xì)節(jié)精度以及文本/圖像與3D模型之間的一致性等指標(biāo)。目前,該方向的質(zhì)量評(píng)價(jià)技術(shù)尚處于起步階段,已有研究嘗試引入語義一致性等判斷依據(jù),以提升評(píng)價(jià)的全面性和智能化水平。
此外,開源社區(qū)和標(biāo)準(zhǔn)化組織(如MPEG、IEEE)也日益關(guān)注MQA的發(fā)展,積極推動(dòng)公開數(shù)據(jù)集的建設(shè)與評(píng)價(jià)協(xié)議的標(biāo)準(zhǔn)化制定。隨著更多機(jī)構(gòu)的參與,有望逐步形成行業(yè)共識(shí),促進(jìn)沉浸式內(nèi)容制作的規(guī)范化與標(biāo)準(zhǔn)化發(fā)展。
網(wǎng)格模型質(zhì)量評(píng)價(jià)挑戰(zhàn)
高質(zhì)量MQA數(shù)據(jù)集數(shù)量不足
與2D圖像和視頻數(shù)據(jù)相比,高質(zhì)量的MQA數(shù)據(jù)集仍較為稀缺。主要受限于三方面因素:首先,數(shù)據(jù)采集與建模成本高昂,需依賴高精度的3D掃描設(shè)備與專業(yè)建模軟件,硬件與人力投入巨大;其次,質(zhì)量評(píng)價(jià)涉及幾何結(jié)構(gòu)、紋理細(xì)節(jié)等多個(gè)維度,人工標(biāo)注不僅耗時(shí)耗力,而且容易受主觀因素影響,不同評(píng)測(cè)人員之間存在明顯偏差;最后,現(xiàn)有主流開源數(shù)據(jù)集[1]~[5]主要集中在3D采集與建模技術(shù),尚缺乏針對(duì)AIGC等AI生成內(nèi)容的數(shù)據(jù)資源,導(dǎo)致現(xiàn)有模型在跨領(lǐng)域任務(wù)中的泛化能力較弱、評(píng)價(jià)性能有限。
動(dòng)態(tài)網(wǎng)格模型序列及AIGC內(nèi)容質(zhì)量評(píng)價(jià)方向難點(diǎn)尚未解決
當(dāng)前,MQA的研究主要聚焦于靜態(tài)網(wǎng)格模型的檢測(cè),而針對(duì)動(dòng)態(tài)網(wǎng)格模型序列及AIGC生成內(nèi)容的質(zhì)量評(píng)價(jià)仍顯不足。在VR/AR、元宇宙、數(shù)字孿生等典型應(yīng)用中,用戶接觸的3D內(nèi)容往往是動(dòng)態(tài)變化的,且往往沒有可比對(duì)的現(xiàn)實(shí)參考。動(dòng)態(tài)網(wǎng)格模型序列的質(zhì)量及AI生成的內(nèi)容質(zhì)量直接影響用戶體驗(yàn)。
對(duì)于動(dòng)態(tài)網(wǎng)格模型序列,其質(zhì)量評(píng)價(jià)除需考慮基本幾何結(jié)構(gòu)外,還存在評(píng)價(jià)模型運(yùn)動(dòng)的自然性、幀間過渡的連貫性、長(zhǎng)期觀看時(shí)是否引發(fā)視覺疲勞等技術(shù)難點(diǎn)。目前尚無有效的研究成果及解決方法。
而針對(duì)AIGC生成的網(wǎng)格模型,AI生成導(dǎo)致生成的模型可能存在結(jié)構(gòu)不合理、語義不一致等潛在問題,傳統(tǒng)基于幾何、紋理的評(píng)價(jià)方法難以有效檢測(cè)這類質(zhì)量缺陷。亟需發(fā)展具備結(jié)構(gòu)合理性判斷、語義理解能力的新型評(píng)價(jià)方法。
缺少統(tǒng)一且覆蓋全面的標(biāo)準(zhǔn)
業(yè)內(nèi)當(dāng)前缺乏統(tǒng)一的MQA行業(yè)標(biāo)準(zhǔn)。雖然MPEG已經(jīng)開始關(guān)注這一問題,并開展了針對(duì)動(dòng)態(tài)網(wǎng)格模型數(shù)據(jù)壓縮與失真評(píng)價(jià)的標(biāo)準(zhǔn)制定工作,但相關(guān)方法主要依賴原始模型作為參考,采用PSNR等傳統(tǒng)指標(biāo)計(jì)算質(zhì)量損失。這種“有參考”的評(píng)價(jià)方式存在明顯局限:依賴于原始模型作為參考,無法獨(dú)立評(píng)價(jià)網(wǎng)格模型本身的質(zhì)量,難以對(duì)模型的主觀感知質(zhì)量進(jìn)行有效量化。
網(wǎng)格模型質(zhì)量評(píng)價(jià)發(fā)展建議
持續(xù)構(gòu)建專業(yè)的MQA數(shù)據(jù)集
針對(duì)MQA數(shù)據(jù)不足的問題,需持續(xù)構(gòu)建高質(zhì)量的MQA數(shù)據(jù)集。結(jié)合靜態(tài)、動(dòng)態(tài)及AIGC各自特點(diǎn),通過多元化的采集方式和系統(tǒng)化的標(biāo)注流程來確保數(shù)據(jù)的全面性和可靠性。對(duì)于靜態(tài)內(nèi)容,可依托專業(yè)建模軟件或開源數(shù)據(jù)庫進(jìn)行收集,覆蓋不同復(fù)雜度和應(yīng)用場(chǎng)景;動(dòng)態(tài)內(nèi)容則需要通過動(dòng)作捕捉或4D掃描技術(shù)獲取包含各種運(yùn)動(dòng)模式的序列數(shù)據(jù),并模擬實(shí)際應(yīng)用中可能出現(xiàn)的時(shí)域失真(如幀間抖動(dòng)、運(yùn)動(dòng)模糊等)以增強(qiáng)數(shù)據(jù)的代表性。對(duì)于AIGC內(nèi)容,在數(shù)據(jù)構(gòu)建過程中應(yīng)確保生成參數(shù)的多樣性(提示詞/提示圖像類別、采樣步數(shù)、隨機(jī)種子設(shè)置等),提高數(shù)據(jù)分布的覆蓋范圍與評(píng)價(jià)的泛化能力。在數(shù)據(jù)標(biāo)注環(huán)節(jié),既要包含客觀的幾何精度、拓?fù)浣Y(jié)構(gòu)等量化指標(biāo),也要通過專家評(píng)測(cè)或借助眾包平臺(tái)收集MOS及語意匹配度,以全面反映人類視覺感知。為提升數(shù)據(jù)集的實(shí)用性,還需要引入學(xué)術(shù)界和工業(yè)界的共同協(xié)作,打通行業(yè)偏差,方便不同研究團(tuán)隊(duì)進(jìn)行橫向使用。
動(dòng)態(tài)網(wǎng)格模型序列及AIGC內(nèi)容質(zhì)量評(píng)價(jià)的可行思路
在對(duì)動(dòng)態(tài)網(wǎng)格模型序列質(zhì)量評(píng)價(jià)時(shí),可從時(shí)空一致性和人眼感知特性兩個(gè)維度建立進(jìn)行評(píng)價(jià)。針對(duì)這兩個(gè)維度的問題,可以設(shè)立相關(guān)的質(zhì)量評(píng)價(jià)指標(biāo),如:檢測(cè)幀間過渡時(shí)平滑度識(shí)別模型拓?fù)浣Y(jié)構(gòu)變化一致性、通過投影視頻質(zhì)量評(píng)價(jià)以實(shí)現(xiàn)對(duì)渲染呈現(xiàn)進(jìn)行質(zhì)量評(píng)價(jià)等。
在對(duì)AIGC生成模型質(zhì)量評(píng)價(jià)時(shí),可從模型與prompt之間的匹配度進(jìn)行識(shí)別?赏ㄟ^多視角描述得到一段文本,并與prompt文本匹配的方法在匹配度維度下進(jìn)行質(zhì)量識(shí)別。此外,還可引入跨學(xué)科的方法,結(jié)合計(jì)算機(jī)圖形學(xué)、結(jié)構(gòu)力學(xué)、材料學(xué)和運(yùn)動(dòng)分析等領(lǐng)域的知識(shí),輔助構(gòu)建準(zhǔn)確實(shí)用的結(jié)構(gòu)合理性評(píng)價(jià)能力。
積極推進(jìn)MQA標(biāo)準(zhǔn)化工作,形成統(tǒng)一標(biāo)準(zhǔn)
聯(lián)合業(yè)內(nèi)企業(yè)及高校積極推進(jìn)標(biāo)準(zhǔn)化工作,針對(duì)AI生成3D內(nèi)容快速增長(zhǎng)帶來的質(zhì)量評(píng)價(jià)需求,特別是在缺少原始參考模型的AIGC應(yīng)用場(chǎng)景,推動(dòng)建立一套標(biāo)準(zhǔn)化的質(zhì)量評(píng)價(jià)方法。相關(guān)研究重點(diǎn)包括:1)構(gòu)建多維度質(zhì)量評(píng)價(jià)指標(biāo)體系;2)探索無參考條件下的質(zhì)量評(píng)價(jià)方案;3)研究動(dòng)態(tài)網(wǎng)格模型序列的評(píng)價(jià)方法。標(biāo)準(zhǔn)化工作的推進(jìn)將進(jìn)一步完善AI生成3D內(nèi)容質(zhì)量評(píng)價(jià)方面的標(biāo)準(zhǔn)體系,為元宇宙、數(shù)字孿生等新興應(yīng)用的健康發(fā)展提供技術(shù)參考,同時(shí)促進(jìn)3D內(nèi)容產(chǎn)業(yè)的質(zhì)量規(guī)范化建設(shè)。