本發(fā)明涉及計算機圖形學、機器視覺技術和人體運動行為仿真相結合的領域,具體是一種基于視頻分析的田徑運動標準動作構建方法。
背景技術:
1、在田徑運動教學中,構建準確的標準姿態(tài)對于指導運動員掌握技術至關重要。傳統(tǒng)方法,如繪圖、圖解分析和詳細觀察,通常耗時、精度有限且缺乏互動。
2、目前對于人體姿態(tài)估計多采用基于卷積神經(jīng)網(wǎng)絡(cnn)的姿態(tài)估計模型[1][2]以及基于遞歸神經(jīng)網(wǎng)絡(rnn)的序列姿態(tài)估計模型[3]。這些技術通過分析大量的圖像數(shù)據(jù)來學習人體的關鍵點位置,進而有效捕捉和分析人體的動態(tài)姿態(tài)。特別是,wu等人[4]提出一種新的人體姿態(tài)估計模型,利用高分辨率cnn從圖像中提取紋理信息。該模型采用并行transformer結構來學習特征間的空間依賴性,這對于分析短跑啟動、跳遠起跳等田徑動作提供了更加精確的姿態(tài)估計。此外,3d姿態(tài)估計技術的引入則提供了更為深入和全面的視角,li等人[5]開發(fā)的egoego模型,通過分階段處理從第一人稱視角視頻高效預測3d人體姿態(tài),運動員可以通過第一人稱視角更好地理解自己的動作習慣和需要改進的地方。kundu等人[6]提出了一種自監(jiān)督3d人體姿態(tài)估計的不確定性感知方法,旨在提升預測精度和學習效率。這在處理復雜的田徑動作,如撐桿跳等技術性極高的項目時,能夠提供更加準確和可靠的姿態(tài)反饋。
3、盡管深度學習技術在人體姿態(tài)估計領域已經(jīng)取得了顯著的進展,但田徑運動存在高動態(tài)性、環(huán)境多樣性和實時性的特點,現(xiàn)有方法仍然存在一些根本性的缺陷。首先,目前的技術[1,2,3]主要集中在圖像特征與關鍵點之間的直接映射上,往往忽略了人體運動的時序信息以及肢體之間的動態(tài)相互作用,這限制了這些模型在處理高速運動和復雜動作序列時的有效性。其次,深度學習模型通常需要依賴大量的標注數(shù)據(jù)來進行訓練,這一過程不僅耗時耗力,而且模型的泛化能力受限于訓練數(shù)據(jù)集的多樣性和覆蓋范圍。此外,盡管高分辨率cnn[4]模型在人體姿態(tài)估計方面取得了一定的成就,但在一些復雜的環(huán)境下,可能難以準確捕捉到運動員的紋理信息和細節(jié)。kundu等人[6]提出的自監(jiān)督3d人體姿態(tài)估計方法雖然能夠提高預測精度和學習效率,但在沒有足夠標注數(shù)據(jù)的田徑運動場景中,模型的訓練可能會受到限制。3d姿態(tài)估計技術[6]需要更高的計算資源,這在實時或資源受限的場景中可能成為一個限制因素。其次,獲取和處理3d數(shù)據(jù)的復雜性遠高于2d數(shù)據(jù),不僅數(shù)據(jù)采集需要特殊的設備,如深度相機或運動捕捉系統(tǒng),而且數(shù)據(jù)的預處理和標注也更為復雜和耗時。盡管3d模型能夠提供空間上的詳細信息,但其在遮擋處理、快速動作捕捉以及不同環(huán)境下的泛化能力方面,仍然存在挑戰(zhàn)。
技術實現(xiàn)思路
1、本發(fā)明的目的是為解決傳統(tǒng)姿態(tài)構建技術—包括基于教練觀察、簡單視頻回放以及繪圖和圖解分析的局限性,如主觀判斷差異大、動作捕捉精確度低、時間效率低下以及對專業(yè)知識的高需求等問題,而提出一種基于視頻分析的田徑運動標準動作構建方法。這種方法采用2d姿態(tài)分析,簡化技術實施復雜性和降低成本,克服了高速動作捕捉難度高的缺點,在保證實施簡便性的同時,充分考慮室內(nèi)外、不同光照和天氣條件等不同環(huán)境,實現(xiàn)接近實時反饋和高準確度,不僅支持田徑運動信息化發(fā)展和教學指導,而且能夠滿足田徑運動教學的多樣化需求,為運動員的訓練優(yōu)化和比賽分析提供堅實的技術基礎。
2、實現(xiàn)本發(fā)明目的的技術方案是:
3、一種基于視頻分析的田徑運動標準動作構建方法,包括如下步驟:
4、(1)構建2d人體運動模型:第一步,利用目標檢測模型detr,即md,檢測出圖像中的人體,并對人體信息進行裁剪,得到只包含人體的圖像;第二步,利用自建人體姿態(tài)估計模型,即me,對2d人體運動視頻進行分析,得到2d人體姿態(tài),具體包括如下步驟:
5、s1.將視頻分成連續(xù)幀:上傳一個人體運動視頻,該人體運動視頻為任意的田徑運動視頻,視頻中運動的人體需清晰;拍攝設備與人體之間的直線距離范圍為3-6米;拍攝幀率在120幀以上,拍攝清晰度在1080p以上,視頻標記為v,通過圖像處理技術把視頻v分為連續(xù)幀:v={v1,v2,...,vi},vi表示第i幀;
6、s2.檢測人體位置:獲取人體的位置,同時裁剪出只包含人體的圖片(裁剪的人體位置由模型md輸出的人體左上角坐標和右下角坐標構成);
7、s2-1.處理圖片:對于得到的視頻幀vi,首先改變vi顏色排列順序為rgb,得到一張三通道的顏色特征圖片,標記為p,p∈rh×w×3,h代表圖像的高度,w代表圖像的寬度;
8、s2-2.提取人體位置:采用模型md,檢測出人體在圖p中的位置,用候選框進行標記,候選框左上角坐標為(x1,y1),候選框右下角坐標為(x2,y2);最后根據(jù)候選框的位置信息裁剪圖片,去除掉除人體外的背景,得到特征圖i,公式如下:
9、(x1,y1,x2,y2)=md(p)????(1)
10、模型md分為三步,分別是特征提取、自注意力、候選框預測,其中第一步特征提取公式如下:
11、f=cnn(p)?????????????????????????(2)
12、cnn表示特定的卷積神經(jīng)網(wǎng)絡,通過將p輸入cnn中,能有效提取圖片中人體的初步特征信息,f∈rh×w′×c,c代表特征圖的通道數(shù);接下來在第二步自注意力過程中,f在被展平之后通過位置編碼送入自注意力中,最大程度提取人體特征信息,如公式(3):
13、f′=positionalencoding(flatten(f))???????????????(3)
14、r=transformer(f′)??????????????????????(4)
15、r表示自注意力輸出的結果,尺寸為n×d,其中n是預定義的目標數(shù)量上限,這里n的值為1,表示只檢測人體;d是每個目標的輸出維度,包括類別和候選框坐標。最后在候選框預測過程中,r被轉(zhuǎn)換為候選框b和相應的類別標簽l,通過線性層和特定激活函數(shù)去除無效值,具體公式如下:
16、b,l=linear(r)???????????????????????(5)
17、b=sigmoid(b)·[w,h,w,h]??????????????????(6)
18、l=softmax(l)????????????????????????(7)
19、b中的每個元素通過sigmoid函數(shù)被映射到[0,1]范圍內(nèi),最后乘上原圖片p的高寬即可得到坐標值,l通過softmax函數(shù)得到每個候選框的概率,高于特定閾值該候選框才有效,這里的閾值設置為0.75,即模型預測候選框為人體的概率超過0.75才被認定確實是人體;
20、s2-3.裁剪圖片:最后通過裁剪得到圖片i,公式如下:cf表示裁剪函數(shù),裁剪后的圖片i位于原始圖片p的(x1,y1)到(x2,y2)區(qū)域內(nèi);
21、cf(p,(x1,y1),(x2,y2))=i???????????????????(8)
22、s3.提取關鍵點特征,獲得人體關節(jié)點的坐標,構建2d人體姿態(tài)特征圖,即姿態(tài)點圖:
23、s3-1.處理圖片:為準確地識別出人體關鍵點,將圖片i通過四個不同卷積核,得到四個大小不一的特征圖i1,i2,i3,i4,i1,i2,i3,i4被依次送入模型me,模型me通過學習i1,i2,i3,i4四個特征圖的輸出結果,進而獲得能夠處理不同尺寸圖片的泛化能力,其中四個特征圖的形狀如下:
24、
25、s3-2.提取特征:設計一個基于窗口的自注意力模塊,通過將圖片進行切割,每個塊進行單獨的自注意力,最終將自注意力進行聚合,具體為,對于某個特征圖ii,尺寸為h×w,將ii按尺寸ph×pw進行切割,得到個窗口;對每個窗口進行自注意力,而后將自注意力進行聚合,得到特征圖ii′,公式如下:
26、
27、wj表示第j個窗口,然而這樣劃分窗口會導致窗口之間沒有信息交流,進而導致對人體關鍵點的識別效果不佳,故設計了一個跨窗口信息交流模塊,對聚合自注意力后的特征圖ii′進行信息補充,跨窗口信息交流模塊由三個卷積核構成,公式如下:
28、
29、窗口自注意力模塊和跨窗口信息交流模塊合并稱為特征提取模塊,對于每一張?zhí)卣鲌D,分別對應一個特征提取模塊,然后采用串聯(lián)方式,即in(ii+1)=out(ii),讓不同的特征圖之間共享參數(shù)和特征信息;
30、s3-3.融合特征:經(jīng)過特征提取模塊,得到提取特征過后的四張?zhí)卣鲌D通過將四張?zhí)卣鲌D統(tǒng)一維度,進行特征融合,進一步提高模型對人體關鍵點的提取能力,公式如下:
31、
32、為最終得到的特征,形狀為表示q個關鍵點的熱圖;
33、s3-4.熱圖解碼:通過上述s3-1至s3-3步驟,得到了表示關鍵點的熱圖,其中q設置為17,代表十七個人體關鍵點,采用熱圖解碼器對熱圖進行解碼,得到相應關鍵點;
34、
35、(2)自定義標準運動姿態(tài):首先對得到的17個關鍵點進行歸一化,得到標準化坐標,然后根據(jù)人體關鍵點結構,對關鍵點進行兩兩連線,進而在空白畫布中畫出2d人體姿態(tài),姿態(tài)點圖標記為相較于原視頻幀v={v1,v2,vi},j≤i,對于原視頻中沒有人的幀,不會進行畫圖;
36、在得到了連續(xù)姿態(tài)點圖構成的圖片序列后,自定義選取其中n個點圖作為某項田徑運動的標準動作,將歸一化的點坐標保存為json文件以便后續(xù)的使用。
37、所述步驟(1)中2d人體姿態(tài)包括17個點:0:"鼻子",1:"左眼",2:"右眼",3:"左耳",4:"右耳",5:"左肩",6:"右肩",7:"左肘",8:"右肘",9:"左腕",10:"右腕",11:"左髖",12:"右髖",13:"左膝",14:"右膝",15:"左踝",16:"右踝"。
38、本技術方案的關鍵點在于:
39、1、基于現(xiàn)實運動視頻進行分析提取2d人體姿態(tài),保證了提取出的人體姿態(tài)符合現(xiàn)實人體關鍵結構,避免了從零構建方案的繁瑣,提供效率。同時還允許構建在已有的動作基礎上進行自定義修改,使其具備強大的擴展性。
40、2、提出了一個新的人體關鍵點提取模型me。該模型具備多尺度提取能力,能夠適應不同尺寸的圖片,準確率相較于其他方案更具魯棒性和準確性;同時該模型提出的窗口自注意力模型能夠有效地減少計算資源,方便部署在輕量化設備上。
41、3、這種方法因為采用人工智能技術,通過數(shù)據(jù)進行學習,避免了手動設計特征的缺陷,因而具備良好的泛化性。該方法不僅可以在田徑運動中使用,還可以擴展到如球類運動教學等其他場景。
42、本技術方案的有益效果為:
43、本技術方案方法充分考慮了現(xiàn)實人體關節(jié)的結構,同時利用先進的人工智能技術更方便有效地構建人體姿態(tài)。本技術方案方法不僅節(jié)約計算成本,同時還可以針對不同尺寸的視頻進行分析,還允許自定義構建特別的標準動作方案。
44、本技術方案方法在田徑運動動作分析中,采用了簡單但高效的ai驅(qū)動方法,帶來了顯著的進步。這一創(chuàng)新超越了傳統(tǒng)運動捕捉技術的限制,后者通常需要大量的手工注釋和高計算資源。通過整合深度學習算法,系統(tǒng)自動識別并跟蹤視頻幀序列中運動員的動作,大幅減少了分析所需的計算負荷和時間。這一高效性使得運動學研究者和教練能夠快速獲得運動員性能的詳細洞察,無需昂貴的運動捕捉設備。過去需要幾十分鐘的逐幀分析任務現(xiàn)在可以在幾分鐘內(nèi)完成,這可以讓教練和運動員得到即時反饋。
45、本技術方案方法另一個關鍵優(yōu)勢在于強大的魯棒性和可調(diào)整性。不同于傳統(tǒng)方法難以處理不同質(zhì)量的視頻或需要預定義的視頻格式,本技術方案可以無縫地調(diào)整以適應輸入視頻的尺寸,確保運動員和教練可以利用從專業(yè)級攝像機到智能手機的各種設備拍攝的視頻。此外,系統(tǒng)的模塊化設計允許對標準動作模板進行定制。教練可以根據(jù)個別運動員或團隊的具體需求和目標定制這些模板,專注于優(yōu)化對成功最關鍵的領域的性能。