視頻場景檢測的制作方法
【專利說明】視頻場景檢測
【背景技術】
[0001 ] 在視頻內容的一些形式中,視頻可以由可被分組成若干鏡頭的個體視頻幀構成。 在一些不例中,鏡頭可以表征為利用攝像機的某一視角拍攝的一系列幀。場景可以被表征 為可以在行為、地點、背景和/或時間上相關的鏡頭集合,其中這樣的相關性可能對應于內 容或節(jié)目的本質。例如,在系列幽默劇、肥皂劇和/或戲劇節(jié)目的一些示例中,場景可以被 表征為拍攝在特別位置發(fā)生的某一行為的連續(xù)鏡頭集合。
[0002] 在觀看或瀏覽視頻內容的同時,用戶可能期望訪問該內容中與場景相關的特別場 景或部分。定位視頻內容內的場景的一個方法可以包含通過檢測在鏡頭轉變處的鏡頭邊界 來將個體幀分組到鏡頭中??赏ㄟ^檢測在接連幀中的差別來定位硬切鏡頭轉變,其中出現(xiàn) 的鏡頭的第一幀緊接著消失的鏡頭的最后幀。在另一方面,逐步鏡頭轉變通常跨越多個幀, 在該多個幀上,消失的鏡頭逐步轉變到出現(xiàn)的鏡頭。在逐步鏡頭轉變中,時間上相鄰的幀可 以是消失的鏡頭和出現(xiàn)的鏡頭的組合。因此,逐步鏡頭轉變可以包括在接連幀之間的更小 和非線性差別,使得精確識別鏡頭邊界更加具有挑戰(zhàn)性。
[0003] -旦識別了鏡頭,可以將鏡頭聚類成場景。使用K平均聚類以將鏡頭聚類成場景 的算法是已知的。然而這些算法一般取決于對期望的聚類的數(shù)量的估計。因此,這些方法 對于期望聚類的數(shù)量的正確估計是高度敏感的。對應算法還是相對復雜和計算起來代價高 的。此外,盡管在構成鏡頭的個體幀之中的相關性可能是相當可靠的,但是在包括場景的鏡 頭之中的相關性可能更加不可預測,并且可取決于攝像機的角度、場景的本質和/或其它 因素。相應地,可證明可靠地和反復地識別場景是具有挑戰(zhàn)性的。
【發(fā)明內容】
[0004] 為了解決上述問題,提供一種用于檢測視頻內容中的場景的場景檢測系統(tǒng)和相關 方法。在一個示例中,用于檢測視頻內容中的場景的場景檢測系統(tǒng)可包括計算設備,計算設 備包括處理器和存儲器。由處理器使用存儲器的部分來執(zhí)行場景檢測程序。場景檢測程序 可被配置為識別在視頻內容中的多個鏡頭。場景檢測程序可在多個鏡頭中選擇目標鏡頭。
[0005] 然后場景檢測程序可構建包括目標鏡頭并且具有時間上在目標鏡頭之前的第一 數(shù)量鏡頭的前向窗、以及具有時間上在目標鏡頭之后的第二數(shù)量鏡頭的后向窗。對于在前 向窗中的每個鏡頭,場景檢測程序可確定在選擇的鏡頭與在后向窗中的其它鏡頭中的每個 鏡頭之間的差異。如果所確定的差異之一小于場景邊界閾值,則場景檢測程序可確定該場 景未在目標鏡頭處開始。如果確定的差異都不小于場景邊界閾值,則場景檢測程序可確定 該場景在目標鏡頭處開始。
[0006] 提供該
【發(fā)明內容】
來引入對以簡化形式的概念的選擇,下文在詳細描述中進一步描 述該概念。該
【發(fā)明內容】
并非旨在標識所要求保護的主題的關鍵特征或必要特征,也非旨在 用于限制所要求保護的主題的范圍。此外,所要求保護的主題不限于解決了在該公開中的 任何部分中提到的任何或所有缺點的實施方式。
【附圖說明】
[0007] 圖1是根據(jù)本公開的實施例的場景檢測系統(tǒng)的示意圖。
[0008] 圖2是一系列接連視頻幀的示意性圖示。
[0009] 圖3是根據(jù)本公開的實施例的用于檢測硬切鏡頭轉變的方法的流程圖。
[0010] 圖4是根據(jù)本公開的實施例的用于檢測逐步鏡頭轉變的第一種類的方法的流程 圖。
[0011] 圖5是根據(jù)本公開的實施例的用于檢測可能通過圖4中所示的方法未檢測到的逐 步鏡頭轉變的第二種類的方法的流程圖。
[0012] 圖6是包括目標鏡頭、鏡頭的時間上如向窗和鏡頭的時間上后向窗的一系列接連 鏡頭的示意性圖示。
[0013] 圖7是根據(jù)本公開的實施例的用于檢測場景的方法的流程圖。
[0014] 圖8是計算設備的實施例的簡化示意性圖示。
【具體實施方式】
[0015] 圖1示出用于檢測視頻內容中的一個或多個場景的場景檢測系統(tǒng)10的一個實施 例的示意圖。場景檢測系統(tǒng)10包括在計算設備22的大容量存儲器18中存儲的場景檢測 程序14。場景檢測程序14可由計算設備22的處理器30加載到存儲器26并且執(zhí)行,以實 施下文更詳細描述的方法和進程中的一個或多個。
[0016] 可將視頻內容34存儲在大容量存儲器18中。在一些示例中,可通過計算設備22 從可移除計算機可讀存儲介質50 (在此以DVD的形式示出)接收視頻內容34??梢瞥嬎?機可讀存儲介質50可用于存儲和/或傳遞數(shù)據(jù),該數(shù)據(jù)包括但不限于視頻內容34、場景檢 測程序14和其它媒體內容和/或可執(zhí)行以實施本文描述的方法和進程的指令??梢瞥?算機可讀存儲介質50還可采用⑶、HD-DVD、藍光盤、EEPROM和/或軟盤等的形式。在其它 示例中,可經由網(wǎng)絡42從遠程源接收和/或可在遠程源處訪問視頻內容34,遠程源例如是 服務器38。在一些示例中,遠程源可采取基于云的服務的形式。
[0017] 計算設備22可采用桌面計算機、膝上型計算機、平板計算機、移動計算機、聯(lián)網(wǎng)計 算機、游戲控制器、機頂盒(例如有線電視盒、衛(wèi)星電視盒)或任何其他類型的適當計算設備 的形式。下文針對圖8更詳細描述關于計算設備22的部件和計算方面的附加細節(jié)。
[0018] 計算設備22還可操作性經由網(wǎng)絡42連接到一個或多個附加設備(例如服務器 38)。網(wǎng)絡42可采用局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、有線網(wǎng)絡、無線網(wǎng)絡、個人區(qū)域網(wǎng)或其組合 的形式,并且可包括英特網(wǎng)。
[0019] 現(xiàn)在參考圖2,提供來自視頻內容34的若干個體幀(i-Ι )、( i )、( i+Ι )、( i+2)等的 不意圖。在該不例中,幀(i_l)是時間上相鄰并且在幀(i)之后的幀,幀(i+1)是時間上相 鄰并且在幀(i)之前的幀,幀(i+2)是時間上相鄰并且在幀(i+Ι)之前的幀等。將認識到, 幀(i-Ι)、(i)、(i+Ι)、(i+2)等中的每個幀可表示由圖像拍攝設備(例如視頻攝像機)拍攝 的圖像,或由計算設備生成的圖像。
[0020] 如上文提到的,鏡頭可被表征為利用攝像機的共同視角拍攝的連續(xù)幀序列。相應 地,構成鏡頭的幀可以是視覺相關的。還將認識到,檢測在第一鏡頭和時間上相鄰的第二鏡 頭之間的轉變處的鏡頭邊界對于執(zhí)行較高水平的視頻分割(例如場景檢測)可以是很有用 的。
[0021] 還如上文提到的,可以利用不同鏡頭轉變技術來從一個鏡頭轉變到另一鏡頭。鏡 頭轉變的一個示例是硬切轉變,其中出現(xiàn)的鏡頭的第一幀緊跟隨消失的鏡頭的最后幀?,F(xiàn) 在參考圖3,提供了用于分析視頻內容34中的多個幀中的每個幀以識別一個或多個硬切轉 變的方法300的實施例。參考上文描述的并且在圖1中示出的場景檢測系統(tǒng)10的軟件和 硬件部件來提供方法300的以下描述。將認識到,方法300還可以在使用其它適當硬件和 軟件部件的其它上下文中執(zhí)行。
[0022] 參考圖3,在304,方法300可包括計算在視頻內容34中的每個幀(i)的顏色直方 圖。在利用RGB色空間的一個示例中,將幀的紅、綠和藍像素值轉換為YCbCr色空間。然后 使用箱(bin)數(shù)量B來計算每個幀(i )的YCbCr顏色直方圖。在一個示例中,箱的數(shù)量B可 以是16。在其他示例中,箱的數(shù)量B可以是4、8、12、20、32、64、128或其它適當?shù)南鋽?shù)量。 在308,方法300可包括通過將每個箱中的值除以正被分析的幀的像素數(shù)量來對每個幀直 方圖進行歸一化。
[0023] 在312,方法300可包括對于視頻內容34中的所有幀、計算在第一幀和時間上相鄰 的第二幀之間的幀直方圖相似性H。在一個示例中,在第一幀(i)和時間上相鄰幀(i+Ι)之 間的顏色直方圖相似性可被如下計算: Η?.ι V nimd-iHh.K Fl-Ilr h= .1 其中是Y值落入箱b中的像素的數(shù)量與幀(i沖的像素的總數(shù)量的比例。為了 確定鏡頭邊界是否存在于幀(i )(即,硬切轉變是否存在于幀(i ) -1和幀(i )之間,在316, 方法300可包括確定以下第一條件是否被滿足: Il:.,,! < T1 其中T1是第一直方圖相似性閾值。在一個示例中,T1可以是大約2. 85。在其它示例 中,T1可以是2. 25、2. 45、2. 65、3. 05、3. 25、3. 45或其它適當閾值。
[0024] 如果^ ,則在320,方法300可包括確定視頻內容34中的所有幀是否已被 檢查以識別硬切轉變。如果視頻內容34中的所有幀已被檢查,則方法300可終止。如果視 頻內容34中的所有幀未被檢查以識別硬切轉變,則方法300可進入到下一幀比較。
[0025] 返回316,如果< Ti,則在328方法300可包括確定以下第二條件是否被滿 足: Hj > T, 其中T2是第二直方圖相似性閾值。在一個示例中,T2可以是大約2. 9。在其它示例中, T2可以是2. 3、2. 5、2. 7、3. 1、3. 3、3. 5或其它適當閾值。
[0026] 如果a+ :: U,則在320,方法300可包括確定視頻內容34中的所有幀是否已被檢 查以識別硬切轉變。如果視頻內容34中的所有幀已被檢查,則方法300可結束。如果視頻 內容34中的所有幀未被檢查以識別硬切轉變,則方法300可進入到下一幀比較。
[0027] 返回到328,如果比4 > T2,則在332,方法300可確定鏡頭邊界存在于幀(i)處。 替代地表述,方法300可使用幀直方圖相似性來識別在幀(i)和時間上相鄰的幀(i+1)之間 的硬切轉變。
[0028] 將認識到,當在幀(i)與時間上相鄰的幀(i+Ι)之間的相似性小于第一直