前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的一般步驟主題范文,僅供參考,歡迎閱讀并收藏。
2. 應(yīng)用領(lǐng)域安防
實時從視頻中檢測出行人和車輛。
自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發(fā)出帶有具體地點方位信息的警報。
自動判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險,幫助工作人員引導(dǎo)和管理人流。
醫(yī)療
對醫(yī)學(xué)影像進行自動分析的技術(shù)。這些技術(shù)可以自動找到醫(yī)學(xué)影像中的重點部位,并進行對比比分析。
通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計手術(shù),確保手術(shù)
為我們每個人提供康建議和疾病風(fēng)險預(yù)警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產(chǎn)品的功能呢),進行準(zhǔn)確得體并且個性化的回應(yīng)。
自動駕駛
現(xiàn)在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對行駛環(huán)境進行實時感知。智能駕駛系統(tǒng)可以對多種感知信號進行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實時規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運行。
工業(yè)制造
幫助工廠自動檢測出形態(tài)各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機器來模擬人類認(rèn)知能力的技術(shù)。
人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)。下文會一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數(shù)量、顏色
人工設(shè)計特征
先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值
深度學(xué)習(xí)特征
這里先不提及,文章后面會說
2. 感知器
老師給了一道題:
要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學(xué)渣啊,靠蒙!
隨便找三個數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時 y[實際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預(yù)測] = 0.
重復(fù)以上兩步,得出所有的『實際值和預(yù)測值的差距的綜合,記為 Loss1
可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜啊!繼續(xù)懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的?。┫陆档姆较蚶^續(xù)猜數(shù)字,具體過程大概是這樣子的:
上述所屬的實際值和預(yù)測值的差距 實際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點間直線距離公式,余弦相似度公式等等可以計算預(yù)測結(jié)果和實際結(jié)果之間的差距。
劃重點:損失函數(shù)就是現(xiàn)實和理想的差距(很殘酷)
3. 支持向量機
*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家
老師:你給我滾出去
實際計算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:
5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。
那該怎么辦呢?
機器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個場景:
假如你是某直播老板,要找一堆小主播,這時候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?
這時候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。
求出每個聚類中的點到藍(lán)色聚類中心點和黃色聚類中心的距離
如果一個點離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。
這時因為分組范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心
重復(fù)步驟 4 (算點中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。
至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:
計算機在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征
人工設(shè)計特征
深度學(xué)習(xí)特征
通過卷積提取圖像特征
劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?
區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計特征的步驟,交由卷積操作去自動提取,分類器的訓(xùn)練也同時融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實現(xiàn)了端對端的學(xué)習(xí)
劃重點:端對端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。
3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:
過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。
與之對應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵志的一個公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)
非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學(xué)習(xí)到的模型就不夠準(zhǔn)確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。
4. 應(yīng)用人臉識別
自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標(biāo)識等等。再配合雷達等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調(diào)、音色
通過采樣、量化、編碼。實現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號)
人工設(shè)計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對低頻聲音比較敏感而對高頻聲音不敏感)。
關(guān)系為:
在每一個頻率區(qū)間對頻譜求均值,它代表了每個頻率范圍內(nèi)聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進行特征提取
2. 應(yīng)用音樂風(fēng)格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉(zhuǎn)文字
輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個英文字母)
再把聲學(xué)模型送入另外的學(xué)習(xí)器
輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)
五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因為人視覺的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:
但是視頻相對于圖像有一個更重要的屬性:動作(行為)。
怎么從一個連續(xù)的視頻分析動作呢?
舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設(shè),1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變
至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個像素點的,這里不展開說明。
第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。
整個畫面的光流就是這樣:
整個視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個點移動的軌跡
假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進行分類訓(xùn)練。
進一步優(yōu)化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。
六、一段文字在表達什么(自然語言處理)1. 特征提取
這里有4個句子,首先進行分詞:
去掉停用詞(副詞、介詞、標(biāo)點符合等等,一般在文本處理上都有一個停用詞表)
編碼詞表
句子向量化
這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。
2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點呢?需要從多個維度去進一步給詞語更豐富的內(nèi)涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設(shè)句子中有 N 個詞, 某個詞出現(xiàn)次數(shù)為 T,一共有 X 個句子,該詞語在 W 個句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應(yīng)用
七、讓計算機畫畫(生成對抗網(wǎng)絡(luò))從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經(jīng)過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網(wǎng)絡(luò)(GAN)的核心。
通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會了畫『真畫了。
計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。
直線上一些均勻分布的點,經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經(jīng)過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計算機生成手寫數(shù)字的過程
劃重點:函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強化學(xué)習(xí):多次任務(wù)是否達成最終目標(biāo)
每一次任務(wù)都準(zhǔn)確,不就是能達成最終目標(biāo)嗎?我們來看一個例子:
一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應(yīng)緊缺無法交付這些收音機。
應(yīng)該責(zé)怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達成)。——《心智社會》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。
但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養(yǎng)分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費大量的時間也難以找到最優(yōu)的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。
其中,落子預(yù)測器有個名稱,叫做政策網(wǎng)絡(luò)(policy network)價值評估器有個名稱,叫做價值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負(fù)。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。
通過 政策網(wǎng)絡(luò) + 價值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實現(xiàn)最優(yōu)落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。
3. 定義接下來說一下枯燥的定義
什么是強化學(xué)習(xí)?
當(dāng)我們關(guān)注的不是某個判斷是否準(zhǔn)確,而是行動過程能否帶來最大的收益時使用強化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。
強化學(xué)習(xí)的目標(biāo)是要獲得一個策略(poliey)去指導(dǎo)行動。比如在圍棋博弈中,這個策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。
一個強化學(xué)習(xí)模型一般包含如下幾個部分:
一組可以動態(tài)變化的狀態(tài)(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格
一組可以選取的動作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數(shù)量。
一個可以和決策主體(agent)進行交互的環(huán)境(environment)這個環(huán)境會決定每個動作后狀態(tài)如何變化。
棋手(主體)的落子會影響棋局(環(huán)境),環(huán)境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環(huán)境,供求關(guān)系決定價格),環(huán)境給主體獎勵(賺錢)或懲罰(虧錢)
關(guān)鍵詞:語義標(biāo)記;三維人臉;網(wǎng)格標(biāo)記;隨機森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號:TP317.4
文獻標(biāo)識碼:A 文章編號:1672-7800(2017)006-0189-05
0 引言
在計算機視覺與圖像領(lǐng)域,對于二維圖像人臉的研究(包括人臉識別、人臉檢測、人臉特征點標(biāo)記等)非常多,并且取得了很大進展。特別是近幾年,隨著深度學(xué)習(xí)算法的應(yīng)用,對于二維人臉的研究有了極大突破[1]。然而,相對于二維人臉,人們對三維人臉研究較少。三維人臉的研究是以人臉的三維數(shù)據(jù)為基礎(chǔ),結(jié)合計算機視覺和計算機圖形學(xué),充分利用三維人臉的深度信息和其它幾何信息,解決和克服現(xiàn)有二維人臉研究中面臨的光照、姿態(tài)、表情等問題[3]。三維人臉模型標(biāo)記與分割是將三維人臉網(wǎng)格模型上的頂點進行分類,將人臉劃分為幾個區(qū)域,例如眉毛、眼睛、鼻子、嘴等。對這些區(qū)域的標(biāo)記與分割對三維人臉重建、特征點定位和表情動畫等方面的研究都起著重要作用。三維人臉的研究是模式識別和圖形學(xué)領(lǐng)域活躍且極具潛力的研究方向之一,在影視、游戲動畫、人臉識別、虛擬現(xiàn)實、人機交互等方面都有著廣泛應(yīng)用[2-3]。
目前,許多對三維人臉方面的研究,包括三維人臉重建、識別與跟蹤、姿態(tài)估計及特征點標(biāo)記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數(shù)據(jù)估算人臉姿態(tài)表達為一個回歸問題(Regression Problem),然后利用隨機森林算法解決該問題,完成一個簡單深度特征映射到三維人臉特征點坐標(biāo)、人臉旋轉(zhuǎn)角度等實值參數(shù)的學(xué)習(xí)。通過訓(xùn)練數(shù)據(jù)集建立隨機森林,該數(shù)據(jù)集包括通過渲染隨機生成姿態(tài)的三維形變模型得到的5萬張640*480深度圖像。在實驗部分,對Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進行了對比。與文獻[6]中的方法相比,Papazov[9]提出了一個更為復(fù)雜的三角形表面patch特征,該特征是從深度圖重建成的三維點云中計算獲得的,主要包括兩部分:線下測試和線上測試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓(xùn)練數(shù)據(jù)中尋找最相似的表面patches。
在計算機圖形學(xué)領(lǐng)域,網(wǎng)格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個網(wǎng)格,網(wǎng)格標(biāo)記是關(guān)鍵步驟,它用于鑒定網(wǎng)格上的每個三角形屬于哪個部分,這在網(wǎng)格編輯、建模和變形方面都有著重要應(yīng)用。Shapira等[10]利用形狀直徑函數(shù)作為分割三維模型的一個信號,通過對該信號的計算,定義一個上下文感知的距離測量,并且發(fā)現(xiàn)眾多目標(biāo)之間的部分相似性;隨后,Sidi等[11]提出一個半監(jiān)督的聯(lián)合分割方法,利用一個預(yù)定義的特征集實現(xiàn)對目標(biāo)的預(yù)先分割,然后將預(yù)先做好的分割嵌入到一個普通空間,通過使用擴散映射獲得最終的對網(wǎng)格集的聯(lián)合分割。網(wǎng)格標(biāo)記的一個關(guān)鍵問題是建立強大的特征,從而提高各類網(wǎng)格模型標(biāo)記結(jié)果的準(zhǔn)確性,增加泛化能力。為了解決該問題,Kalogerakis等[12]提出采用一種基于條件隨機場算法的方法來標(biāo)記網(wǎng)格。通過對已標(biāo)記的網(wǎng)格進行訓(xùn)練,成功地學(xué)習(xí)了不同類型的分割任務(wù);Xie等[13]提出一種三維圖形快速分割與標(biāo)記的方法,用一系列特征描述法和極端學(xué)習(xí)器來訓(xùn)練一個網(wǎng)格標(biāo)記分類的神經(jīng)網(wǎng)絡(luò);Guo等[14]提出用深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從一個大的聯(lián)合幾何特征中學(xué)習(xí)網(wǎng)格表示方式。這個大的聯(lián)合幾何特征首先被提取出來表示每個網(wǎng)格三角形,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進行訓(xùn)練與學(xué)習(xí)。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來表示人臉模型上的頂點特征,利用隨機森林算法對三維人臉模型頂點進行訓(xùn)練,實現(xiàn)對人臉模型上頂點的分類(屬于鼻子或是眼睛區(qū)域等),從而實現(xiàn)三維人臉模型的區(qū)域標(biāo)記。這種新描述符并非從深度圖提取的簡單矩形區(qū)域特征,而是直接從三維人臉模型計算獲得,在人臉的姿勢、尺寸、分辨率的改變上具有一定魯棒性。因此,訓(xùn)練過程是在三維人臉模型上執(zhí)行的,這種數(shù)據(jù)相對于真實的深度圖數(shù)據(jù)更容易獲取(例如在文獻[6]中使用的訓(xùn)練數(shù)據(jù))。
1 特征描述符與三維人臉區(qū)域分割
1.1 正方形切平面描述符
從一個三維人臉模型M的所有頂點上隨機選取一個種子點P,根據(jù)三維人臉模型的幾何結(jié)構(gòu),計算該種子點的法向量,此時根據(jù)一點和法向量即可確定一個切平面。確定正方形的邊長L和正方形的方向。正方形的方向(正方形局部坐標(biāo)系)是根據(jù)全局坐標(biāo)系下建立的正方形,通過法向量轉(zhuǎn)換而成。建立正方形局部坐標(biāo)系,以便于計算三維人臉上的點到正方形的投影距離,減少程序運行時間,從而可以確定一個正方形切平面塊S。在這種情況下,根據(jù)正方形切平面塊S,可以計算出一個簡單且具有魯棒性的幾何描述符V。將正方形邊長分成K等份,正方形則細(xì)分為K2個小正方形,如圖1(a)所示。模型M上的所有點向正方形切平面塊上投影,如果投影點在正方形內(nèi),此點則肯定在K2個小正方形中的某一個正方形內(nèi),稱該點屬于該小正方形或者稱小正方形包含該點。每個小正方形的描述符是其包含所有點投影距離的平均值。考慮到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個點的投影距離有正負(fù)之分。整個正方形切平面塊的描述符V是所有小正方形描述符的簡單串聯(lián)。在實驗部分,本文將對邊長L和劃分的小正方形個數(shù)K2對分類的準(zhǔn)確率進行對比研究。
使用每個小正方形包含所有點的平均投影距離作為描述符,使得該描述符對噪聲、數(shù)據(jù)分解和分辨率上的變化具有魯棒性,這在實驗部分有所體現(xiàn)。許多三維幾何特征已經(jīng)在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據(jù)局部坐標(biāo)系定義并且依賴于大量的平面法向量,使噪聲數(shù)據(jù)對結(jié)果產(chǎn)生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡單、有效且具有魯棒性。除三維幾何特征外,許多文章也對三維模型投影生成的深度圖進行了特征選取和處理。例如,F(xiàn)anelli等[6-8]在深度圖中選取patch,然后在patch中隨機選取兩個矩形框F1、F2,如圖2所示。以像素點的深度值和幾何法向量的X、Y、Z值作為隨機森林的4個特征通道,F(xiàn)1和F2中所有像素點某個特征通道平均值的差值作為隨機森林每棵樹節(jié)點的二元測試。二元測試定義為:
本文在實驗部分對上述特征選取方式與本文提出的正方形描述符在三維人臉區(qū)域標(biāo)記上的結(jié)果進行了比較。
1.2 數(shù)據(jù)庫與人臉區(qū)域分割
訓(xùn)練階段的正方形切平面描述符均取自于高分辨率的人臉網(wǎng)格模型,這些訓(xùn)練模型由Basel Face Model (BFM)[20]生成。BFM是一個公開、可獲得的基于PCA的三維形變模型,由200個人臉對象的高分辨率三維掃描創(chuàng)建而成。通過從一個正態(tài)分布取樣的PCA系數(shù),BFM能被用來生成任意數(shù)量的隨機網(wǎng)格人臉。此外,在所有生成的人臉網(wǎng)格模型上,對應(yīng)頂點的索引都是一樣的。例如,在所有訓(xùn)練模型上,在鼻尖的頂點有相同的索引數(shù)字,這將帶來諸多便利。對于訓(xùn)練模型,只需在任意一個BFM人臉模型上進行一次人臉區(qū)域的手動標(biāo)記,即可知道每個訓(xùn)練模型要分割的區(qū)域上各點的索引,如每個模型鼻子區(qū)域的所有頂點索引都是一樣的。
對訓(xùn)練模型進行手動分割標(biāo)記(只需分割標(biāo)記一次),將一個三維人臉模型分割為10個區(qū)域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區(qū)域。如圖3所示,對三維人臉模型進行區(qū)域分割,不同的分割區(qū)域用不同顏色進行標(biāo)記,每個區(qū)域包含很多三維人臉模型頂點。由于很多三維人臉模型額頭部分包含的頂點相對較少,特征信息也相對較少,所以將額頭區(qū)域劃分至其它區(qū)域。人臉模型的每個區(qū)域包含的所有頂點屬于同一類,根據(jù)上述BFM數(shù)據(jù)庫特點可知,數(shù)據(jù)庫中任何一個人臉模型每個區(qū)域包含的所有頂點索引都是一致的。
2 隨機森林算法分類標(biāo)記人臉區(qū)域
2.1 隨機森林算法
分類回歸樹[21]是一個強大的工具,能夠映射復(fù)雜的輸入空間到離散或者分段連續(xù)的輸出空間。一棵樹通過分裂原始問題到更簡單、可解決的預(yù)測以實現(xiàn)高度非線性映射。樹上的每一個節(jié)點包含一個測試,測試的結(jié)果指導(dǎo)數(shù)據(jù)樣本將分到左子樹或是右子樹。在訓(xùn)練期間,這些測試被選擇用來將訓(xùn)練數(shù)據(jù)分組,這些分組對應(yīng)著實現(xiàn)很好預(yù)測的簡單模型。這些模型是由訓(xùn)練時到達葉子節(jié)點的被標(biāo)記的數(shù)據(jù)計算而來,并且存儲于葉子節(jié)點。Breiman[22]指出雖然標(biāo)準(zhǔn)的決策樹單獨使用會產(chǎn)生過擬合,但許多隨機被訓(xùn)練的樹有很強的泛化能力。隨機被訓(xùn)練樹的隨機性包括兩方面,一是用來訓(xùn)練每棵樹的訓(xùn)練樣本是隨機選取的,二是每棵樹上的二元測試是從使每個節(jié)點最優(yōu)的測試集中隨機選取的。這些樹的總和稱為隨機森林。本文將三維人臉模型區(qū)域的標(biāo)記與分割描述為一個分類問題,并利用隨機森林算法來有效地解決它。
2.2 訓(xùn)練
訓(xùn)練數(shù)據(jù)集是由BFM生成的50個三維人臉模型。從每個模型上隨機取n=10 000個頂點樣本,每個頂點對應(yīng)一個正方形切平面塊。本文實驗中森林由100棵樹建立而成,森林里每個樹由隨機選取的一系列塊(patch){Pi=Vfi,θi}構(gòu)建而成。Vfi是從每個樣本提取的特征,即正方形切平面描述符,f是特征通道的個數(shù),正方形劃分為K2個小正方形,f=K2。實值θi是這個樣本所屬的類別,例如鼻子區(qū)域類別設(shè)為數(shù)字1,那么鼻子區(qū)域內(nèi)的頂點樣本所對應(yīng)的θ=1。建立決策樹時,在每個非葉子節(jié)點上隨機生成一系列可能的二元測試,該二元測試定義為:
這里的Pi∈{L,R}是到達左子樹或右子樹節(jié)點上的樣本集合,wi是到左子樹或右子樹節(jié)點的樣本數(shù)目和到父節(jié)點樣本數(shù)目的比例,例如:wi=|Pi||P|。
2.3 測試
通過BFM生成55個三維人臉模型,其中50個人臉模型作為訓(xùn)練數(shù)據(jù),剩下5個人臉模型作為測試數(shù)據(jù)。測試數(shù)據(jù)依然取10 000個樣本點,并且知道每個樣本點屬于哪一個區(qū)域,通過測試數(shù)據(jù)計算三維人臉模型網(wǎng)格點分類的準(zhǔn)確率。為了測試提出方法的有效性,研究過程中從網(wǎng)上下載獲取了其它三維人臉模型,對人臉模型上的所有網(wǎng)格點通過之前訓(xùn)練好的隨機森林模型進行分類。因為其它人臉模型與BFM生成人臉模型的尺寸、坐標(biāo)單位等不一致,所以本研究對這些測試模型進行了后期處理,對正方形的邊長按照模型尺寸的比例M行選取。
3 實驗
3.1 數(shù)據(jù)集與實驗環(huán)境
本文三維人臉標(biāo)記與分割所用的訓(xùn)練和測試三維人臉模型由BFM生成,50個模型作為訓(xùn)練數(shù)據(jù),5個模型作為測試數(shù)據(jù)。每個模型包含53 490個頂點和106 466個三角形網(wǎng)格,每個訓(xùn)練模型選取10 000個頂點樣本。用C++和OpenGL、OpenCV等庫對三維人臉模型數(shù)據(jù)進行采樣,得到每個樣本的正方形切平面描述符。在Matlab平臺下用隨機森林算法對數(shù)據(jù)集進行訓(xùn)練和測試,并對實驗結(jié)果進行可視化。
3.2 實驗結(jié)果
利用已訓(xùn)練好的模型對測試數(shù)據(jù)集上三維人臉模型的所有頂點進行分類,計算頂點分類的準(zhǔn)確率。準(zhǔn)確率(Accuracy Rate)計算公式為:
準(zhǔn)確率=預(yù)測正確的頂點個數(shù)(m)人臉模型上所有頂點個數(shù)(N)
根據(jù)文獻[10]提出的類似描述符參數(shù)選取以及參數(shù)優(yōu)化策略,經(jīng)過多次實驗,研究發(fā)現(xiàn)正方形邊長L和正方形劃分的小正方形數(shù)目K2兩個參數(shù)的選取對頂點分類準(zhǔn)確率有著一定影響。實驗中選取參數(shù)L∈{60,80,100}、參數(shù)K2∈{9,16,25,36}進行對比,具體對比結(jié)果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據(jù)上面兩個表格,可以明顯得出,L=80mm,K2=25時頂點分類準(zhǔn)確率最高。接下來對L=80mm,K2=25情況下的三維人臉模型區(qū)域進行標(biāo)記,可視化結(jié)果如圖4所示,上邊是原始三維模型數(shù)據(jù),下邊是標(biāo)記后的結(jié)果。(a)、(b)模型標(biāo)記圖是由BFM生成的三維人臉模型區(qū)域標(biāo)記的結(jié)果,模型有53 490個頂點。為了驗證本文方法的一般性和對分辨率具有不變性,(c)~(e)模型標(biāo)記圖是非BFM生成的其它三維人臉模型的標(biāo)記結(jié)果,模型約有5 000個頂點。以上所有圖都是對三維人臉模型所有頂點進行標(biāo)記的結(jié)果。
文獻[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機森林算法進行了實驗,并與本文的正方形特征描述符的實驗結(jié)果進行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長c深度圖大小的比例和正方形所取邊長與模型大小的比例相等。
由表3可得,對三維人臉模型頂點級分類和區(qū)域標(biāo)記問題,本文提出的特征描述符的標(biāo)記結(jié)果優(yōu)于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對三維模型處理要比對深度圖處理更有優(yōu)勢。
3.3 結(jié)果討論與分析
圖4中5個模型頂點數(shù)目、三角形面數(shù)目和頭部姿勢都不一樣,驗證了本文所提方法對于姿勢、模型尺寸和模型分辨率具有較好的魯棒性。并且其對不同的眉毛、眼睛、臉頰區(qū)域也能進行很好的區(qū)分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號進行顯示。本文提出的描述符和直接對三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優(yōu)勢。由于手動分割人臉區(qū)域時,很難避免分割粗糙,區(qū)域交界處有的部分頂點沒有包含進去,因此在區(qū)域交界處頂點的分類誤差會相對略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點和特征相對較少,所以相較于其它區(qū)域,這兩個區(qū)域的頂點分類誤差也會略大。
4 結(jié)語
本文提出一種基于正方形切平面描述符的三維人臉區(qū)域標(biāo)記方法。將這種幾何特征描述符作為選取樣本的特征,通過隨機森林算法,對三維人臉模型進行區(qū)域分類和標(biāo)記。該方法可有效識別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區(qū)域,這對三維人臉特征點的定位及其它三維人臉方面的研究都具有重要意義。本文提出的方法對三維人臉模型頭部姿態(tài)、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動分割人臉區(qū)域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優(yōu)化。同時,本文僅對三維模型上所有頂點所屬區(qū)域進行標(biāo)記,沒有將標(biāo)記后的結(jié)果結(jié)合三維分割算法進行區(qū)域分割優(yōu)化。如何對相關(guān)算法加以改進,將是下一步需要解決的問題。
參考文獻:
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.
關(guān)鍵詞:視頻聯(lián)動;港航船閘;控制聯(lián)動;越線報警
船閘工程項目由很多系統(tǒng)組成,主要包括有計算機監(jiān)控系統(tǒng)、視頻監(jiān)視系統(tǒng)、越線報警系統(tǒng)、網(wǎng)絡(luò)廣播系統(tǒng)、供配電系統(tǒng)和船閘收費系統(tǒng)等。目前已建大部分系統(tǒng)都是分開獨立管理,由于系統(tǒng)較多,分散會給運行管理帶來不便、尤其對船閘安全運行帶來極大不利,只有將各個子系統(tǒng)進行融合統(tǒng)一、聯(lián)合工作才能提高工作效率、為船閘安全可靠運行提供了保障。
一、船閘視頻與控制智能聯(lián)動裝置
隨著監(jiān)控技術(shù)的發(fā)展和船閘自身安全管理的需要,船閘每個閘首都安裝了十幾個乃至數(shù)十個監(jiān)控攝像頭,目前船閘通過多個宮格的方式將多個攝像頭的畫面顯示在電腦或者大屏幕同一監(jiān)視器上,供船閘運行調(diào)度人員監(jiān)控船閘運行情況。然而,在船閘的實際運行過程中,船閘運行調(diào)度人員需要根據(jù)船閘運行的八個步驟,在某一時間段內(nèi)重點關(guān)注部分宮格的視頻畫面,面對多角度多畫面的監(jiān)視器,工作人員很難在短時間內(nèi)找到需要重點關(guān)注的畫面且持續(xù)關(guān)注一段時間,頻繁切換更是容易導(dǎo)致視覺疲勞。船閘集中控制模式下,操作人員既要按照船閘操作工藝流程開關(guān)閘門閥門,又要調(diào)用不同視頻圖像確認(rèn)其操作安全性,兩者之間頻繁切換,十分繁瑣,容易產(chǎn)生誤操作,效率較低。目前大部分船閘使用的視頻與控制聯(lián)動系統(tǒng)采用的舊版方案,只能在現(xiàn)地機房現(xiàn)地進行查看,需要靠人工干預(yù)操作,且使用過程中存在卡頓現(xiàn)象,效果不好。針對上述船閘在船舶過閘靠泊方面主要存在的問題,迫切需要通過船閘視頻與控制聯(lián)動改造工程來解決。船閘視頻與控制智能聯(lián)動裝置集控,通過采集航道交通控制系統(tǒng)的運行控制指令自動調(diào)用運行區(qū)域的相關(guān)攝像機視頻監(jiān)控信號,可使在集控中心使運行人員迅速觀察到運行設(shè)備及運行現(xiàn)場的視頻,以最快的速度了解現(xiàn)場的運行情況,及時確保通航系統(tǒng)的設(shè)備安全可靠,船舶順利過閘。為保證網(wǎng)絡(luò)安全性,將控制系統(tǒng)與視頻系統(tǒng)在網(wǎng)絡(luò)層面完全隔離,聯(lián)動裝置直接讀取PLC的信號,不再與控制系統(tǒng)交換機連接。將視頻系統(tǒng)與控制系統(tǒng)在網(wǎng)絡(luò)上硬隔離。同時,為保證今后船閘控制系統(tǒng)/視頻系統(tǒng)調(diào)整時,盡量減少視頻與控制系統(tǒng)聯(lián)動設(shè)備的調(diào)整工作量,要求聯(lián)動裝置配置文件,設(shè)置操作界面,直接設(shè)置IP等參數(shù),操作更簡單、易懂,維護更方便。
(一)智能聯(lián)動裝置主要功能
在船閘控制中心配置一套視頻與控制智能聯(lián)動裝置,用于放閘運行人員對現(xiàn)場運行設(shè)備進行監(jiān)控。通過將視頻系統(tǒng)的數(shù)據(jù)和控制系統(tǒng)的數(shù)據(jù)進行實時聯(lián)動,滿足在船閘運行全過程中對不同的重點區(qū)域的重點查看的需要。其主要用來連接控制系統(tǒng)與視頻系統(tǒng),通過將控制系統(tǒng)中獲取的關(guān)鍵運行數(shù)據(jù),經(jīng)過分析決策后提供給視頻系統(tǒng)使用,從而使視頻系統(tǒng)側(cè)的軟件發(fā)揮作用,起到了橋梁的作用。1.計算機監(jiān)控系統(tǒng)對被監(jiān)視設(shè)備進行操作時,視頻監(jiān)視系統(tǒng)攝像機能自動轉(zhuǎn)向并顯示畫面,并能對重要部位設(shè)置實時監(jiān)視功能,以判斷設(shè)備運轉(zhuǎn)是否正常、了解現(xiàn)場動態(tài)。系統(tǒng)主要能實現(xiàn)兩點功能。一是在船閘運行的特定步驟篩選重要視頻畫面并放大顯示,二是在船閘運行到下一個步驟時,重點畫面能夠自動進行切換。2.視頻監(jiān)視系統(tǒng)具有與自動報警聯(lián)動功能,能依據(jù)計算機監(jiān)控系統(tǒng)中重要設(shè)備的事故故障信號等有關(guān)報警信息,自動推出事故區(qū)域關(guān)聯(lián)攝像機的全屏報警畫面。
(二)智能聯(lián)動裝置實現(xiàn)方式
智能聯(lián)動裝置獲取設(shè)備運行狀態(tài)通過獨立的裝置處理器,能夠通過網(wǎng)絡(luò)modbus協(xié)議、opc協(xié)議等其他協(xié)議進行互相通信,共享船閘控制系統(tǒng)內(nèi)監(jiān)控系統(tǒng)內(nèi)的操作數(shù)據(jù),而不影響船閘的正常運行。通過分析總線數(shù)據(jù)包和預(yù)設(shè)的參數(shù),處理器智能的識別當(dāng)前操作進展的情況,并透過TCP/IP協(xié)議與監(jiān)控終端通信,進行相應(yīng)動作。視頻與控制聯(lián)動系統(tǒng)終端軟件根據(jù)預(yù)先與船閘相關(guān)人員的溝通,確定船閘的監(jiān)控重點和順序??梢栽谑盏铰?lián)動設(shè)備發(fā)出的動作信號后,切換視頻,控制監(jiān)控區(qū)域放大顯示等操作,避免了人工干預(yù),提高監(jiān)控效率。軟件同時接收船閘上的多路監(jiān)控視頻流,壓縮后以宮格的形式顯示在界面右側(cè),操作人員同樣可以方便的操作該軟件,自主切換、放大任意一路監(jiān)控視頻,有效提高監(jiān)控設(shè)備的使用效率。
(三)智能聯(lián)動裝置系統(tǒng)主要功能
船只在進閘過程中需要關(guān)注的要點畫面一般由2-3個視頻畫面組成,需要對閘門附近船閘運行狀態(tài)進行監(jiān)視,且每個畫面均以文字形式告知管理人員注意的內(nèi)容,并且提示下一步船閘動作,閘室外船只全部進入完畢后,即船只全部進閘后,操作人員進行通過視頻監(jiān)視確認(rèn)無誤后,遠(yuǎn)程操作閘門,使閘門開始關(guān)閉,此時重點畫面立刻切換成了新的需要關(guān)注的區(qū)域圖像。智能聯(lián)動裝置系統(tǒng)主要功能包括:1.視頻與控制智能聯(lián)動軟件是基于多任務(wù)、多平臺、實時性好、開放性好的集成軟件包。標(biāo)準(zhǔn)畫面和用戶組態(tài)畫面均為漢化系統(tǒng)。2.顯示功能:可根據(jù)需要自定義視頻監(jiān)控畫面,包括監(jiān)控畫面的大小,監(jiān)控畫面的對象,視頻監(jiān)控的畫面分割等,如根據(jù)現(xiàn)場開關(guān)閘門的控制信號或事故故障信號自動切換至預(yù)先設(shè)定好的切換畫面,畫面既可以為全屏顯示,也可以為四分屏、五分屏等任意分屏設(shè)置畫面且軟件正常運行過程中CPU占用率不超過50%。畫面自動推送與切換過程中響應(yīng)速度不超過1秒。3.通訊功能:視頻與控制智能聯(lián)動軟件內(nèi)嵌了多家PLC產(chǎn)品的多種硬件驅(qū)動程序,可以與多家PLC產(chǎn)品進行通訊,讀取PLC的相關(guān)信號。同時視頻與控制智能聯(lián)動軟件也可與??档绕放频臄z像機進行通訊,調(diào)取現(xiàn)場的攝像機視頻信號。4.安全功能:通過用戶認(rèn)證系統(tǒng),可防止外來的非法用戶接入,對內(nèi)網(wǎng)用戶進行統(tǒng)一的用戶賬戶管理、行為管理的等一系列安全措施,保障網(wǎng)絡(luò)安全可靠的運行;系統(tǒng)分別設(shè)定操作員和系統(tǒng)管理員的權(quán)限。在運行環(huán)境下,可屏蔽操作系統(tǒng)中所有熱鍵,從而鎖定系統(tǒng)自由進出。系統(tǒng)受電后自動恢復(fù)運行狀態(tài)。操作員級別的用戶只能對系統(tǒng)進行監(jiān)視,而系統(tǒng)管理員可退出系統(tǒng)并對軟件內(nèi)的相關(guān)參數(shù)進行重新設(shè)定。5.自恢復(fù)功能:現(xiàn)場視頻信號丟失再恢復(fù)后,監(jiān)視畫面上的視頻信號可自動進行恢復(fù),無需人為干預(yù)。
二、船閘越線報警系統(tǒng)
船閘作為重要的水運通航設(shè)施,保障其安全運行尤為重要。在閘室靠近閘門的位置附近應(yīng)有一條安全警戒線。船只越過安全警戒線可能對船閘運行工況產(chǎn)生安全隱患,尤其離閘門越近、發(fā)生不安全事件可能性越大。在船閘實際運行過程中,存在以下3方面問題,即目前船閘安全警戒線大多僅僅依靠界限燈和標(biāo)識線,船舶在運行中無法有效識別;船舶距離閘門過近,在水流波動較大時容易出現(xiàn)碰撞閘門的情況;船舶重載下行,在泄水時會出現(xiàn)擱淺閘臺的情況。其中,為了避免泄水時因船舶在閘臺違規(guī)停留導(dǎo)致船舶傾翻事故發(fā)生,需要在危險時間內(nèi)對船舶的違規(guī)停留行為進行檢測、防止船舶故意長時間停留。另一方面,由于船閘運行過程中,水位差變動大,且部分船舶外輪廓高度超限.極易造成船舶高度超限部位與船閘設(shè)施發(fā)生碰擦,既造成了船閘設(shè)施的損壞,也容易造成安全事故,因此項目同時考慮對船舶超高情況進行檢測和報警、提前對船舶運行要求進行提醒。
(一)越線檢測難點
1.當(dāng)前主要越線檢測還是人工巡視。人工巡視存在易疲勞,物理標(biāo)識不易看清,精確度不高,效率低等缺點。2.而采用電氣控制手段自動檢測難點主要有:復(fù)雜天氣影響:閘室環(huán)境是室外露天的非標(biāo)準(zhǔn)工況,受四季天氣情況影響,如雨、霧、雪等因素干擾檢測儀表儀器;隨機干擾源多:如飛鳥、水面漂浮物、波浪等反射,其中飛鳥、漂浮物等具有隨機、不重復(fù)的特點;水位實時變化:在調(diào)度過程中,船舶高度會隨著水位變化而變化,檢測部位要隨水位變動而變動。
(二)船閘越線報警系統(tǒng)原理
為克服檢測難點,設(shè)計采用激光和視頻結(jié)合的檢測手段檢測船舶越線。激光檢測通過二維激光掃描、接收,依據(jù)空間距離,對閘臺上違停的船舶進行檢測報警。視頻檢測通過視頻分析技術(shù),對劃定區(qū)域內(nèi)的船舶進行智能識別,并實時報警。兩種檢測方式特點為:激光檢測精度高,抗干擾能力強,能應(yīng)對各種復(fù)雜天氣;視頻檢測正常情況下精度高,但易受天氣影響。二者結(jié)合,可增加系統(tǒng)可靠性,準(zhǔn)確判別船舶是否越線,為船閘管理人員提供操作依據(jù)和前提條件。將閘室區(qū)域分為正常區(qū)域、安全警戒線、緩沖區(qū)域與危險區(qū)域。其中,安全警戒線為緩沖區(qū)域前方設(shè)定的警戒線,利用激光掃描儀,實時檢測船舶越線行為,為防撞系統(tǒng)提供智能預(yù)警功能;緩沖區(qū)域為危險區(qū)域前方設(shè)定的虛擬區(qū)域,為違規(guī)闖入船舶的管理提供緩沖時間;危險區(qū)域為閘門附近設(shè)定的虛擬區(qū)域,如閘臺位置、閘門位置,在危險時間窗口內(nèi),該區(qū)域禁止船舶進入。采用“激光越線檢測+視頻輔助驗證分析”的復(fù)合檢測方式,完成對潛在船舶危險行為的智能預(yù)警。首先,通過激光掃描儀,對越過安全警戒線的船舶進行檢測,為閘室防撞系統(tǒng)提供智能預(yù)警,充分保障閘室安全穩(wěn)定運行。其次,將控制系統(tǒng)與防撞報警裝置進行聯(lián)動,對目標(biāo)船舶進行重點監(jiān)控。當(dāng)激光掃描儀檢測到有船舶越過警戒線,監(jiān)控中心與閘室警戒燈將自動報警,并通過廣播、顯示屏信息等方式,提醒該船只立刻停船。同時,監(jiān)控中心會向閘口值班員發(fā)出警戒信息,值班員利用緩沖區(qū)域提供的時間現(xiàn)場指揮該船只停船,并自動調(diào)用監(jiān)控攝像機進行拍攝取證。基于紅外功能的視頻輔助分析與聯(lián)動確認(rèn),利用基于卷積神經(jīng)網(wǎng)絡(luò)算法,對視頻監(jiān)控抓拍的船舶圖片進行特征智能識別,為船閘防撞提供輔助預(yù)警功能。當(dāng)閘室出現(xiàn)警情時,防撞預(yù)警系統(tǒng)與視頻監(jiān)控系統(tǒng)實施聯(lián)動,監(jiān)控中心能夠自動將警情區(qū)域的監(jiān)控畫面切換至大屏主畫面,以便進行最后的警情確認(rèn)。對于異常狀況,視頻可以自動保存、自動播放。
三、總結(jié)
視頻聯(lián)動在港航船閘得到試點創(chuàng)新應(yīng)用,船閘視頻監(jiān)視系統(tǒng)和計算機監(jiān)控系統(tǒng)兩個系統(tǒng)之間通過數(shù)據(jù)指令的交互,實現(xiàn)了閘門運行監(jiān)視和閘門視頻同時在大屏上監(jiān)視、方便了操作人員監(jiān)視、提高了系統(tǒng)運行安全性、可靠性。船閘越線報警系統(tǒng)將閘室區(qū)域分為正常區(qū)域、安全警戒線、緩沖區(qū)域與危險區(qū)域,閘室防撞系統(tǒng)提供智能預(yù)警,充分保障閘室安全穩(wěn)定運行。將控制系統(tǒng)與防撞報警裝置進行聯(lián)動,對目標(biāo)船舶進行重點監(jiān)控。船閘越線報警系統(tǒng)為船閘管理人員提供操作依據(jù)和前提條件。
參考文獻:
[1]彭湖.視頻監(jiān)控與消防的聯(lián)動方法探究[J].城市建設(shè)理論研究(電子版)[山東工業(yè)技術(shù),2020.
[2]張榮森.淺談智能化視頻聯(lián)動微機五防系統(tǒng)方案[J].科技創(chuàng)新導(dǎo)報,2016.