本發(fā)明涉及圖像處理領(lǐng)域,更進一步涉及圖像質(zhì)量評價中的一種基于視覺線索關(guān)聯(lián)解析的無參考圖像質(zhì)量評價方法。本發(fā)明可用于在沒有額外信息的情況下對圖像的失真程度進行評估的場景。
背景技術(shù):
1、無參考圖像質(zhì)量評價方法(biqa)指的是在不需要參考圖像的情況下準(zhǔn)確、自動地預(yù)測人類感知的圖像質(zhì)量的一種方法。其廣泛應(yīng)用于圖像處理、計算機視覺、計算機圖形應(yīng)用程序的設(shè)計、優(yōu)化和評估。由于在這些圖像處理系統(tǒng)的每個階段都有可能會引入各種類型的失真從而導(dǎo)致圖像質(zhì)量下降,所以開發(fā)能夠自動預(yù)測人類觀測者感知的圖像質(zhì)量評價方法顯得尤為重要。
2、目前,無參考圖像質(zhì)量評價方法主要分為基于手工特征的傳統(tǒng)方法和基于深度學(xué)習(xí)方法。基于手工特征的圖像質(zhì)量評價模型,通常是由特征提取單元和質(zhì)量回歸模型兩部分組成。根據(jù)特征提取的方式不同,基于手工特征的質(zhì)量評價模型又可以分為基于自然場景統(tǒng)計特性的方法和基于人類視覺系統(tǒng)引導(dǎo)的方法?;谧匀粓鼍敖y(tǒng)計特性的無參考圖像質(zhì)量評價,建立在高保真圖像遵循特定統(tǒng)計特性的前提之上。然而,這些統(tǒng)計特性會因圖像質(zhì)量的退化而發(fā)生改變。人類視覺系統(tǒng)是視覺信號的最終接收者,在圖像質(zhì)量指標(biāo)的設(shè)計中利用人類視覺系統(tǒng)的感知特性具有重要意義,目前基于人類視覺系統(tǒng)引導(dǎo)的方法中最突出的兩類是基于自由能原理的方法和基于視覺靈敏度的方法。然而,基于手工特征的圖像質(zhì)量評價方法卻存在一些明顯的缺點,包括對專業(yè)知識的依賴、泛化能力有限、難以適應(yīng)新的圖像類型和退化模式,這些限制促使圖像質(zhì)量評價轉(zhuǎn)向基于機器學(xué)習(xí)的方法,以實現(xiàn)更準(zhǔn)確、靈活和自動化的圖像質(zhì)量評估。
3、基于深度學(xué)習(xí)的圖像質(zhì)量評價方法對比傳統(tǒng)的方法,在主客觀一致性方面有了質(zhì)的飛躍。在預(yù)訓(xùn)練階段從圖像分類任務(wù)中學(xué)習(xí)到的抽象特征與無參考圖像質(zhì)量評價任務(wù)之間存在高度相關(guān)性。從圖像分類任務(wù)遷移到無參考圖像質(zhì)量評價任務(wù)主要涉及圖像質(zhì)量標(biāo)簽對抽象特征的有監(jiān)督約束,使得模型能夠有效地建立質(zhì)量感知的特征流形,同時獲得較強的泛化能力。目前,已經(jīng)有諸多無參考圖像質(zhì)量評價方法借鑒了預(yù)訓(xùn)練語言模型及其變體在下游任務(wù)上的策略,并取得的了顯著的成功。然而,不同失真圖像在流形空間的投影距離并不能表示質(zhì)量感知距離。也就是說質(zhì)量標(biāo)簽mos分?jǐn)?shù)和圖像本身的回歸關(guān)系會受到質(zhì)量感知的特征流形的非均勻性影響。這種基于語義感知的預(yù)訓(xùn)練模型鼓勵同類別圖像的表征具有相似的表示,而忽略了感知圖像質(zhì)量的變化。
4、廈門大學(xué)在其申請的專利文獻“一種基于擴散模型的無參考圖像質(zhì)量評價方法”(申請?zhí)枺篶n202410070380.x;申請公開號:cn?117593296?a)中公開了一種基于擴散模型的無參考圖像質(zhì)量評價方法。該方法的實現(xiàn)方案是:第一步,基于biqa教師模塊、biqa學(xué)生模塊、特征融合模塊、噪聲適配模塊以及輸出模塊創(chuàng)建一圖像質(zhì)量評價模型,所述biqa教師模塊以clip模型為主干網(wǎng)絡(luò),biqa學(xué)生模塊以transformer模型為主干網(wǎng)絡(luò);第二步,獲取大量的圖像,對各所述圖像進行預(yù)處理并構(gòu)建圖像數(shù)據(jù)集;第三步,利用所述圖像數(shù)據(jù)集對圖像質(zhì)量評價模型進行訓(xùn)練;第四步,利用訓(xùn)練后的所述圖像質(zhì)量評價模型進行圖像質(zhì)量評價。該方法中的特征融合模塊對輸入的失真特征和質(zhì)量水平特征按粒度進行融合,通過噪聲適配模塊來確保融合的粗到細粒度特征與預(yù)定義的噪聲水平之間的一致性,從而進一步增強質(zhì)量水平特征的對齊性,最終提升了無參考圖像質(zhì)量評價精度。但是該方法仍然存在不足之處:圖像質(zhì)量評價過程中的局部塊之間的交互過程是對稱的,具有不同注意力權(quán)重的部分對最終預(yù)測結(jié)果具有相同的影響,不符合人類視覺系統(tǒng)的感知過程,從而導(dǎo)致評價結(jié)果不精確。
5、西安電子科技大學(xué)在其申請的專利文獻“基于混合注意力的無參考圖像質(zhì)量評價方法”(申請?zhí)枺篶n?202310294941.x;申請公開號:cn?1163094886?a)中公開了基于混合注意力的無參考圖像質(zhì)量評價方法。該方法的實現(xiàn)方案是:第一步,獲取訓(xùn)練樣本集和測試樣本集;第二步,構(gòu)建基于混合注意力無參考圖像質(zhì)量評價的網(wǎng)絡(luò)模型:在基于混合注意力無參考圖像質(zhì)量評價的網(wǎng)絡(luò)模型中包括顯著性特征圖生成模型和混合注意力網(wǎng)絡(luò),將失真圖像首先輸入到顯著性特征圖生成模型中,得到圖像的顯著性特征,然后將原失真圖像與其顯著性特征進行融合;將得到的融合特征經(jīng)過混合注意力網(wǎng)絡(luò),來實現(xiàn)通道級和像素級的特征權(quán)重分配,最后利用加權(quán)后的特征圖回歸出圖像質(zhì)量分?jǐn)?shù);第三步,對基于混合注意力無參考圖像質(zhì)量評價的網(wǎng)絡(luò)模型進行迭代訓(xùn)練;第四步,獲取圖像的無參考質(zhì)量評價結(jié)果:將第一步中的測試樣本集作為訓(xùn)練完成的基于混合注意力網(wǎng)絡(luò)的無參考圖像質(zhì)量評價網(wǎng)絡(luò)模型的輸入進行前向推理,得到每個測試樣本的質(zhì)量預(yù)測分?jǐn)?shù)。該方法基于注意力加權(quán)方法結(jié)合金字塔特征來構(gòu)建顯著性映射加權(quán)圖,考慮到了圖像不同區(qū)域的失真的差異性會導(dǎo)致各失真部位對圖像整體質(zhì)量分?jǐn)?shù)的影響不同,提高了質(zhì)量分?jǐn)?shù)預(yù)測的準(zhǔn)確性。但是,該方法仍然存在不足之處:依賴單一層次的信息,難以適應(yīng)各種復(fù)雜的失真類型和多樣化的圖像內(nèi)容。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對上述現(xiàn)有方法存在的不足,提出一種基于視覺線索關(guān)聯(lián)解析的無參考圖像質(zhì)量評價方法,用于解決現(xiàn)有技術(shù)中的注意力交互方式中不存在token之間的主次關(guān)系,導(dǎo)致在圖像不同區(qū)域之間的交互與人類感知不符,大多依賴單一層次的特征,難以適應(yīng)各種復(fù)雜的失真類型和多樣化的圖像內(nèi)容的問題。
2、實現(xiàn)本發(fā)明目的的思路是:本發(fā)明構(gòu)建了局部非平等轉(zhuǎn)置注意力子網(wǎng)絡(luò),將圖像的局部區(qū)域的交互修正為非平等關(guān)系。圖像中的當(dāng)前局部內(nèi)容投影到度量子空間中與其余內(nèi)容之間的距離可以表示局部子圖之間的遠近,并通過argmax(·)函數(shù)找到與當(dāng)前局部內(nèi)容“最接近”的父節(jié)點。為了模仿人類視覺系統(tǒng)在評價圖像時的注意力交互方式,本發(fā)明使用轉(zhuǎn)置注意力子網(wǎng)絡(luò),在前向注意力中當(dāng)前局部內(nèi)容接收其余所有的節(jié)點的相似度信息,而在反向注意力中遵循歸一化概率值來傳遞信息給其余節(jié)點,利用第二維歸一化信息來傳遞信息給注意力權(quán)重高的部分。以此解決了現(xiàn)有技術(shù)中的注意力交互方式中不存在token之間的主次關(guān)系,導(dǎo)致在圖像不同區(qū)域之間的交互與人類感知不符的問題。本發(fā)明采用分組聚類任務(wù)中的可微分采樣構(gòu)建圖像粗粒度到細粒度的局部塊之間的相似性。通過關(guān)聯(lián)解析模塊尋找圖像塊節(jié)點上的局部內(nèi)容之間的相似性,將重要相似局部塊的信息匯聚到一個節(jié)點上以此解決了現(xiàn)有的無參考圖像質(zhì)量評價方法大多依賴單一層次的特征,難以適應(yīng)各種復(fù)雜的失真類型和多樣化的圖像內(nèi)容的問題。
3、實現(xiàn)本發(fā)明目的的具體步驟如下:
4、步驟1,構(gòu)建局部非平等交互的轉(zhuǎn)置注意力子網(wǎng)絡(luò):
5、搭建第一、第二兩個結(jié)構(gòu)相同參數(shù)不同的局部非平等交互的轉(zhuǎn)置注意力子網(wǎng)絡(luò),其結(jié)構(gòu)依次為:第一卷積層、第二卷積層、轉(zhuǎn)置操作層、第三卷積層、第一歸一化層、全連接層、第二歸一化層,其中,第一卷積層與第一歸一化層、第一歸一化層與第二歸一化層之間進行殘差連接;
6、步驟2,構(gòu)建視覺線索關(guān)聯(lián)解析模塊:
7、搭建第一、第二兩個結(jié)構(gòu)相同參數(shù)設(shè)置不同的視覺線索關(guān)聯(lián)解析模塊,每個視覺線索關(guān)聯(lián)解析模塊的結(jié)構(gòu)依次為:第一卷積層、第二卷積層、概率估計層、第三卷積層,第一與第三卷積層之間進行跳躍連接;
8、步驟3,將第一注意力子網(wǎng)絡(luò)、第一視覺線索關(guān)聯(lián)解析模塊、第二注意力子網(wǎng)絡(luò)、第二視覺線索關(guān)聯(lián)解析模塊依次串聯(lián),將第一、第二視覺線索關(guān)聯(lián)解析模塊并聯(lián)后與圖像質(zhì)量回歸模塊串聯(lián)后組成基于視覺線索關(guān)聯(lián)解析的無參考圖像質(zhì)量評價網(wǎng)絡(luò);
9、步驟4,對生成訓(xùn)練集中的所有圖像進行線性編碼:
10、步驟5,訓(xùn)練基于視覺線索關(guān)聯(lián)解析的無參考圖像質(zhì)量評價網(wǎng)絡(luò):
11、設(shè)置訓(xùn)練參數(shù),將訓(xùn)練集輸入到基于視覺線索關(guān)聯(lián)解析的無參考圖像質(zhì)量評價網(wǎng)絡(luò)中,采用adamw優(yōu)化器迭代更新網(wǎng)絡(luò)參數(shù),直到損失函數(shù)收斂為止,得到訓(xùn)練好的無參考圖像質(zhì)量評價網(wǎng)絡(luò);
12、步驟6,對待評價無參考圖像進行質(zhì)量評價:
13、采用與步驟4與步驟5中相同的方法,對待評價的無參考圖像依次進行歸一化、預(yù)處理和線性編碼處理,將線性編碼結(jié)果輸入到訓(xùn)練好的無參考圖像質(zhì)量評價網(wǎng)絡(luò)中,輸出質(zhì)量評價分?jǐn)?shù)。
14、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:
15、第一,本發(fā)明構(gòu)建了局部非平等交互的轉(zhuǎn)置注意力子網(wǎng)絡(luò),將圖像局部區(qū)域之間的交互修正為非平等關(guān)系??朔爽F(xiàn)有技術(shù)中的注意力交互方式中不存在token之間的主次關(guān)系,導(dǎo)致在圖像不同區(qū)域之間的交互與人類感知過程不符的問題。使得本發(fā)明中的圖像評估過程更加符合人類視覺機制中的視覺掩蔽特性,從而提高了圖像質(zhì)量評價結(jié)果的主觀一致性。
16、第二,本發(fā)明采用分組聚類任務(wù)中的可微分采樣構(gòu)建視覺線索關(guān)聯(lián)解析模塊,融合了不同粒度層級的語義信息之間的相關(guān)性??朔爽F(xiàn)有的無參考圖像質(zhì)量評價方法大多依賴單一層次的特征,難以適應(yīng)各種復(fù)雜的失真類型和多樣化的圖像內(nèi)容。使得本發(fā)明具有在在不同場景下都具有良好的魯棒性和泛化能力的優(yōu)點。