前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計(jì)算機(jī)視覺(jué)感知技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。
1計(jì)算機(jī)視覺(jué)的概述及基本體系結(jié)構(gòu)
1.1計(jì)算機(jī)視覺(jué)概述
通過(guò)使用計(jì)算機(jī)和相關(guān)設(shè)備,對(duì)生物視覺(jué)進(jìn)行模擬的方式,就是計(jì)算機(jī)視覺(jué)。對(duì)采集到的圖片或視頻進(jìn)行相應(yīng)的技術(shù)處理,從而獲得相應(yīng)的三維信息場(chǎng)景,是計(jì)算機(jī)視覺(jué)的主要任務(wù)。計(jì)算機(jī)視覺(jué)是一門(mén)學(xué)問(wèn),它就如何通過(guò)計(jì)算機(jī)和照相機(jī)的運(yùn)用,使人們獲得被拍攝對(duì)象的數(shù)據(jù)與信息所需等問(wèn)題進(jìn)行研究。簡(jiǎn)單的說(shuō),就是讓計(jì)算機(jī)通過(guò)人們給其安裝上的“大腦”和“眼睛”,對(duì)周?chē)h(huán)境進(jìn)行感知。計(jì)算機(jī)視覺(jué)是一門(mén)綜合性學(xué)科,在各個(gè)領(lǐng)域都有所作為,已經(jīng)吸引了各個(gè)領(lǐng)域的研究者對(duì)其研究。同時(shí),計(jì)算機(jī)視覺(jué)也是科學(xué)領(lǐng)域中一個(gè)具有重要挑戰(zhàn)性的研究。
1.2計(jì)算機(jī)視覺(jué)領(lǐng)域基本體系結(jié)構(gòu)
提出第一個(gè)較為完善的視覺(jué)系統(tǒng)框架的是Marr,他從信息處理系統(tǒng)角度出發(fā),結(jié)合圖像處理、心理物理學(xué)等多領(lǐng)域的研究成果,提出被計(jì)算機(jī)視覺(jué)工作者基本接受的計(jì)算機(jī)視覺(jué)系統(tǒng)框架。在此基礎(chǔ)上,研究者們針對(duì)視覺(jué)系統(tǒng)框架的各個(gè)角度、各個(gè)階段、各個(gè)功能進(jìn)行分析研究,得出了計(jì)算機(jī)視覺(jué)系統(tǒng)的基本體系結(jié)構(gòu),如圖1。
2計(jì)算機(jī)視覺(jué)在交通領(lǐng)域的應(yīng)用
2.1牌照識(shí)別
車(chē)輛的唯一身份是車(chē)輛牌照。在檢測(cè)違規(guī)車(chē)輛、稽查被盜車(chē)輛和管理停車(chē)場(chǎng)工作中,車(chē)輛牌照的有效識(shí)別與檢測(cè)具有重要的作用和應(yīng)用價(jià)值。然而在實(shí)際應(yīng)用工作中,雖然車(chē)牌識(shí)別技術(shù)相對(duì)成熟,但是由于受到拍攝角度、光照、天氣等因素的影響,車(chē)牌識(shí)別技術(shù)仍需改善。車(chē)牌定位技術(shù)、車(chē)牌字符識(shí)別技術(shù)和車(chē)牌字符分割技術(shù)是組成車(chē)牌識(shí)別技術(shù)的重要部分。
2.2車(chē)輛檢測(cè)
目前,城市交通路口處紅綠燈的間隔時(shí)間是固定不變的,但是受交通路口的位置不同、時(shí)間不同的影響,每個(gè)交通路口的交通流量也是持續(xù)變化的。此外,對(duì)于某些交通區(qū)域來(lái)說(shuō),公共資源的配備,比如交通警察、交通車(chē)輛的數(shù)量是有限的。如果能根據(jù)計(jì)算機(jī)視覺(jué)技術(shù),對(duì)交通路口的不同時(shí)間、不同位置的交通情況進(jìn)行分析計(jì)算,并對(duì)交通流量進(jìn)行預(yù)測(cè),有利于為交通警察縮短出警時(shí)間、為交通路口的紅綠燈根據(jù)實(shí)際情況設(shè)置動(dòng)態(tài)變化等技術(shù)提供支持。
2.3統(tǒng)計(jì)公交乘客人數(shù)
城市公共交通的核心內(nèi)容是城市公交調(diào)度問(wèn)題,一個(gè)城市如何合理的解決公交調(diào)度問(wèn)題,是緩解城市運(yùn)力和運(yùn)量矛盾,緩解城市交通緊張的有效措施。城市公交調(diào)度問(wèn)題,為公交公司與乘客的平衡利益,為公交公司的經(jīng)濟(jì)利益和社會(huì)效益的提高做出了巨大的貢獻(xiàn)。由于在不同的地域、不同的時(shí)間,公交客流會(huì)存在不均衡性,高峰時(shí)段的公交乘客過(guò)多,平峰時(shí)段的公交乘客過(guò)少,造成了公交調(diào)度不均衡問(wèn)題,使有限資源浪費(fèi)嚴(yán)重。在計(jì)算機(jī)視覺(jué)智能公交系統(tǒng)中,自動(dòng)乘客計(jì)數(shù)技術(shù)是其關(guān)鍵技術(shù)。自動(dòng)乘客計(jì)數(shù)技術(shù),是對(duì)乘客上下車(chē)的時(shí)間和地點(diǎn)自動(dòng)收集的最有效的技術(shù)之一。根據(jù)其收集到的數(shù)據(jù),從時(shí)間和地點(diǎn)兩方面對(duì)客流分析,為城市公交調(diào)度進(jìn)行合理的安排。
2.4對(duì)車(chē)道偏離程度和駕駛員工作狀態(tài)判斷
交通事故的發(fā)生率隨著車(chē)輛數(shù)量的增加而增加。引發(fā)交通事故的重要因素之一就是駕駛員疲勞駕駛。據(jù)相關(guān)數(shù)據(jù)顯示,因車(chē)道偏離導(dǎo)致的交通事故在40%以上。其中,駕駛員的疲勞駕駛就是導(dǎo)致車(chē)道偏離的主要原因。針對(duì)此種現(xiàn)象,為減少交通事故的發(fā)生,計(jì)算機(jī)視覺(jué)中車(chē)道偏離預(yù)警系統(tǒng)被研究開(kāi)發(fā)并被廣泛應(yīng)用。針對(duì)駕駛員眨眼頻率,利用計(jì)算機(jī)視覺(jué)對(duì)駕駛員面部進(jìn)行圖像處理和分析,再根據(jù)疲勞駕駛關(guān)注度與眨眼頻率的關(guān)系,對(duì)駕駛員的工作狀態(tài)進(jìn)行判斷。此外,根據(jù)道路識(shí)別技術(shù),對(duì)車(chē)輛行駛狀態(tài)進(jìn)行檢測(cè),也是判斷駕駛員工作狀態(tài)的方法之一。這兩種方法,是目前基于計(jì)算機(jī)視覺(jué)的基礎(chǔ)上,檢測(cè)駕駛員疲勞狀態(tài)的有效方法。
2.5路面破損檢測(cè)
最常見(jiàn)的路面損壞方式就是裂縫。利用計(jì)算機(jī)視覺(jué),及時(shí)發(fā)現(xiàn)路面破損情況,并在其裂縫程度嚴(yán)重之前進(jìn)行修補(bǔ),有利于節(jié)省維護(hù)成本,也避免出現(xiàn)路面坍塌,車(chē)輛凹陷的情況發(fā)生。利用計(jì)算機(jī)視覺(jué)進(jìn)行路面檢測(cè),相較于之前人工視覺(jué)檢測(cè)相比,有效提高了視覺(jué)檢測(cè)的效率,增強(qiáng)了自動(dòng)化程度,提高了安全性,為市民的出行安全帶來(lái)了更高保障。
3結(jié)論
本文從計(jì)算機(jī)視覺(jué)的概述,及計(jì)算機(jī)視覺(jué)基本體系結(jié)構(gòu),和計(jì)算機(jī)視覺(jué)在交通領(lǐng)域中的應(yīng)用三面進(jìn)行分析,可見(jiàn)計(jì)算機(jī)視覺(jué)在交通領(lǐng)域中的廣泛應(yīng)用,在交通領(lǐng)域中應(yīng)用的有效性、顯著性,以此可得計(jì)算機(jī)視覺(jué)在現(xiàn)展過(guò)程中的重要性。隨著計(jì)算機(jī)視覺(jué)技術(shù)的越來(lái)越成熟,交通領(lǐng)域的檢測(cè)管理一定會(huì)加嚴(yán)格,更加安全。
作者:夏棟 單位:同濟(jì)大學(xué)軟件學(xué)院
參考文獻(xiàn):
[1]段里仁.智能交通系境在我國(guó)道路空通管理中的應(yīng)用[J].北方工業(yè)時(shí)報(bào),2015(06).
[2]王豐元.計(jì)算機(jī)視覺(jué)在建筑區(qū)間的應(yīng)用實(shí)例分析[J].河北電力學(xué)報(bào),2015(04).
[3]李釗稱(chēng).主動(dòng)測(cè)距技術(shù)在計(jì)算機(jī)數(shù)據(jù)分析中的作用探析[J].計(jì)算機(jī)應(yīng)用,2015(08).
[4]馬良紅.三維物體影像的攝取與分析[J].中國(guó)公路學(xué)報(bào),2014(05).
關(guān)鍵詞:動(dòng)態(tài)場(chǎng)景;自適應(yīng)預(yù)測(cè);多特征融合;計(jì)算機(jī)視覺(jué);運(yùn)動(dòng)目標(biāo)
接受信息的關(guān)鍵手段之一就是視覺(jué)系統(tǒng),隨著科學(xué)技術(shù)水平的不斷發(fā)展,以及計(jì)算機(jī)和信號(hào)處理理論的誕生,讓機(jī)器擁有人類(lèi)視覺(jué)功能已經(jīng)不再是夢(mèng)。對(duì)所采集視頻中的運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤、檢測(cè),并對(duì)其目標(biāo)行為進(jìn)行分析,就是運(yùn)動(dòng)目標(biāo)分析的內(nèi)容,運(yùn)動(dòng)目標(biāo)分析是計(jì)算機(jī)視覺(jué)領(lǐng)域關(guān)鍵內(nèi)容之一,其屬于圖像理解與圖像分析的范疇。而在運(yùn)動(dòng)目標(biāo)分析系統(tǒng)中,跟蹤與檢測(cè)運(yùn)動(dòng)目標(biāo)則為中級(jí)和低級(jí)處理部分,是分析與理解行為的高等層分析模塊的基礎(chǔ)。檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)技術(shù)主要包括了:機(jī)器人視覺(jué)導(dǎo)航、軍事領(lǐng)域、運(yùn)動(dòng)圖像編碼、交通管制、視覺(jué)監(jiān)視等。
1目標(biāo)檢測(cè)算法
連續(xù)圖像序列由視頻中提取出,由前景區(qū)域與背景區(qū)域共同組成了整個(gè)畫(huà)面。前景區(qū)域包含了如運(yùn)動(dòng)的人體、車(chē)輛等動(dòng)態(tài)要素,它是指人們較為感興趣的區(qū)域。而背景區(qū)域主要包含例如樹(shù)木、建筑物等靜態(tài)要素,它的像素值僅發(fā)生微弱變化或者不產(chǎn)生變化。在連續(xù)圖像序列中,采用一系列算法分隔開(kāi)背景區(qū)域和前景區(qū)域,將運(yùn)動(dòng)目標(biāo)信息有效提取,則為運(yùn)動(dòng)目標(biāo)檢測(cè)。以靜態(tài)場(chǎng)景為基礎(chǔ)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法包括了光流法、背景差分法、幀間查分法等,文章主要針對(duì)背景差分法進(jìn)行介紹。
背景差分法通常適用于靜態(tài)場(chǎng)景,其是將背景圖像與當(dāng)前幀圖像進(jìn)行差分,運(yùn)動(dòng)目標(biāo)依靠閥值化進(jìn)行檢測(cè),因?yàn)樵撍惴▋H能夠在背景變化緩慢或者不發(fā)生變化的情況下應(yīng)用,因此就有著一定的局限性。假設(shè)當(dāng)前幀圖像為fk(x,y),背景圖像B(x,y)可通過(guò)一定的方法得出,而這時(shí)背景差分圖像則為:
(1)
而假設(shè)二值化閥值為T(mén)h,二值化圖像B(x,y)則為:
(2)
運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果可通過(guò)數(shù)學(xué)形態(tài)學(xué)處理獲得。
2 背景模型的實(shí)時(shí)更新
要更新背景圖像可采用一階KALMAN濾波來(lái)實(shí)現(xiàn),為了克服氣候變化、光照變化等外部環(huán)境變化對(duì)運(yùn)動(dòng)檢測(cè)產(chǎn)生的影響,采用一階KALMAN濾波更新背景圖像公式如下:
Bk+1(p)=Bk(p)+g(Ik(p)-Bk(p)) (3)
而增益因子則為:g=?琢1(1-Mk(p))+?琢2Mk(p) (4)
公式中?琢1和?琢2是權(quán)值系數(shù);M是第k時(shí)刻二值化后目標(biāo)圖像中p像素的值;B為背景圖像;I為當(dāng)前幀圖像。要想將運(yùn)動(dòng)目標(biāo)從背景序列圖像中有效分割出來(lái),就必須要達(dá)到?琢2足夠小的條件,且?琢1應(yīng)等于或者大于10?琢2,若?琢1值過(guò)大,就會(huì)將算法自身的去噪特性喪失,在序列背景圖像中也會(huì)存儲(chǔ)越來(lái)越多的運(yùn)動(dòng)變化。
3 更新車(chē)輛目標(biāo)模型
核與活動(dòng)輪廓算法具有效率高、技術(shù)復(fù)雜度低等特點(diǎn),它以非參數(shù)核概率密度估計(jì)理論為基礎(chǔ),在視頻運(yùn)動(dòng)目標(biāo)跟蹤中廣泛應(yīng)用。彩色圖像序列通過(guò)攝像機(jī)獲取,人臉目標(biāo)模型可以采用RGB顏色空間來(lái)進(jìn)行描述。在跟蹤車(chē)輛的過(guò)程中,噪聲、遮擋、光照等干擾或多或少存在,因干擾因素的存在,車(chē)輛像素特征也會(huì)發(fā)生相應(yīng)的微弱變化。若不對(duì)目標(biāo)模型進(jìn)行更新,會(huì)對(duì)跟蹤精度產(chǎn)生影響,所以,采用的矩形模板會(huì)包括一定背景。而在實(shí)施跟蹤的過(guò)程中,要對(duì)車(chē)輛目標(biāo)模型進(jìn)行更換。如果其過(guò)程物遮擋,當(dāng)BHATTACHARYYA系數(shù)滿(mǎn)足?籽>Tudm條件時(shí),更新車(chē)輛目標(biāo)模型,更新模型為:
(5)
公式中Tudm是模板更新閥值;qk-1是更新之前的車(chē)輛目標(biāo)模型。通過(guò)視頻跟蹤,在近場(chǎng)景和遠(yuǎn)場(chǎng)景拍攝到的視頻中,多尺度圖像空間由各個(gè)幀圖像構(gòu)成。例如:將將書(shū)本作為跟蹤對(duì)象,由遠(yuǎn)及近從書(shū)本的正上方拍攝六十幀圖像,為了能使矩形框正好能夠包含書(shū)本,對(duì)每幀圖像張書(shū)本手工劃定矩形框,并對(duì)框內(nèi)圖像的信息量進(jìn)行統(tǒng)計(jì)。最后,隨書(shū)本尺度的變化,給出圖像信息量變化曲線。
4 計(jì)算機(jī)視覺(jué)原理
計(jì)算機(jī)視覺(jué)是一門(mén)研究怎樣使機(jī)器進(jìn)行觀察的科學(xué),更切確地說(shuō),就是指利用電腦和攝影機(jī)代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等機(jī)器視覺(jué),并進(jìn)一步做圖形處理,用電腦處理成為傳送給儀器檢測(cè)或更適合人眼觀察的圖像。計(jì)算機(jī)視覺(jué)研究相關(guān)的理論和技術(shù)作為一個(gè)科學(xué)學(xué)科,嘗試創(chuàng)建能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。這里所指的信息指Shannon定義的,可以用來(lái)幫助做一個(gè)決定的信息。因?yàn)楦兄梢钥醋魇菑母泄傩盘?hào)中提取信息,所以計(jì)算機(jī)視覺(jué)也可以看作是研究如何使人工系統(tǒng)從圖像或多維數(shù)據(jù)中感知的科學(xué)。
計(jì)算機(jī)視覺(jué)就是由計(jì)算機(jī)來(lái)代替大腦完成處理和解釋?zhuān)酶鞣N成象系統(tǒng)代替視覺(jué)器官作為輸入敏感手段。使計(jì)算機(jī)能象人那樣通過(guò)視覺(jué)觀察和理解世界,具有自主適應(yīng)環(huán)境的能力就是計(jì)算機(jī)視覺(jué)的最終研究目標(biāo),而需要經(jīng)過(guò)長(zhǎng)期的努力才能達(dá)到這個(gè)目標(biāo)。所以,在實(shí)現(xiàn)最終目標(biāo)以前,通過(guò)努力的中期目標(biāo)是建立一種視覺(jué)系統(tǒng),這個(gè)系統(tǒng)能依靠反饋的某種程度的智能和視覺(jué)敏感完成一定的任務(wù)。例如:計(jì)算機(jī)視覺(jué)的一個(gè)重要應(yīng)用領(lǐng)域就是自主車(chē)輛的視覺(jué)導(dǎo)航,但要實(shí)現(xiàn)自主導(dǎo)航的系統(tǒng),卻還沒(méi)有條件實(shí)現(xiàn)象人那樣能識(shí)別和理解任何環(huán)境。所以,人們通過(guò)不懈的努力,研究在高速公路上具有道路跟蹤能力,有效避免與前方車(chē)輛碰撞的視覺(jué)輔助駕駛系統(tǒng)。人類(lèi)視覺(jué)系統(tǒng)是有史以來(lái),人們所知道的功能最強(qiáng)大和完善的視覺(jué)系統(tǒng)。這里要指出的一點(diǎn)是在計(jì)算機(jī)視覺(jué)系統(tǒng)中計(jì)算機(jī)起代替人腦的作用。計(jì)算機(jī)視覺(jué)可以而且應(yīng)該根據(jù)計(jì)算機(jī)系統(tǒng)的特點(diǎn)來(lái)進(jìn)行視覺(jué)信息的處理,但并不等于計(jì)算機(jī)必須按人類(lèi)視覺(jué)的方法完成視覺(jué)信息的處理??梢哉f(shuō),對(duì)人類(lèi)視覺(jué)處理機(jī)制的研究將給計(jì)算機(jī)視覺(jué)的研究提供指導(dǎo)和啟發(fā),所以,用計(jì)算機(jī)信息處理的方法研究人類(lèi)視覺(jué)的機(jī)理,建立人類(lèi)視覺(jué)的計(jì)算理論,與此同時(shí)也是一個(gè)十分重要和讓人感興趣的研究領(lǐng)域。這方面的研究被稱(chēng)為計(jì)算視覺(jué)。計(jì)算視覺(jué)可被認(rèn)為是計(jì)算機(jī)視覺(jué)中的一個(gè)研究領(lǐng)域。計(jì)算機(jī)視覺(jué)領(lǐng)域的不完善性與多樣性為其突出特點(diǎn)。
5 結(jié)束語(yǔ)
對(duì)視頻中的運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤、識(shí)別、檢測(cè),并對(duì)目標(biāo)行為進(jìn)行研究、分析,這就是基于視覺(jué)運(yùn)動(dòng)目標(biāo)分析。以計(jì)算機(jī)視覺(jué)為基礎(chǔ),分析運(yùn)動(dòng)目標(biāo),包括了目標(biāo)行為的理解與分析、目標(biāo)跟蹤、運(yùn)動(dòng)目標(biāo)檢測(cè)、預(yù)處理圖像等,它是計(jì)算機(jī)視覺(jué)領(lǐng)域重要內(nèi)容之一。理解與分析運(yùn)動(dòng)目標(biāo)的行為,既是計(jì)算機(jī)視覺(jué)的根本目的之一,也是檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)的最終目標(biāo)。從理論層考慮,理解與分析運(yùn)動(dòng)目標(biāo)的行為可以分為人工智能理論研究與模式識(shí)別。簡(jiǎn)要闡述基于計(jì)算機(jī)視覺(jué)的運(yùn)動(dòng)目標(biāo)分析,而所面臨的是對(duì)運(yùn)動(dòng)目標(biāo)行為的理解。
參考文獻(xiàn)
[1]楊可,劉明軍,毛欣,夏維建,劉偉,周旋,吳煒,周凱.基于計(jì)算機(jī)視覺(jué)的電纜終端表面溫升分析系統(tǒng)[J].電視技術(shù),2013(7).
[2]葉闖,沈益青,李豪,曹思汗,王柏祥.基于人類(lèi)視覺(jué)特性(HVS)的離散小波變換(DWT)數(shù)字水印算法[J].浙江大學(xué)學(xué)報(bào):理學(xué)版,2013(2).
[3]何青海,馬本學(xué),瞿端陽(yáng),李宏偉,王寶.基于機(jī)器視覺(jué)棉葉螨自動(dòng)監(jiān)測(cè)與分級(jí)方法研究[J].農(nóng)機(jī)化研究,2013(4).
[4]賈挺猛,茍一,鮑官軍,董茂,楊慶華.基于機(jī)器視覺(jué)的葡萄樹(shù)枝骨架提取算法研究[J].機(jī)電工程,2013(4).
關(guān)鍵詞: 計(jì)算機(jī) 視覺(jué)注意機(jī)制 計(jì)算機(jī)視覺(jué)注意模型
1.引言
隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)處理量劇增,以及用戶(hù)不斷擴(kuò)大的個(gè)性化需求,對(duì)計(jì)算機(jī)信息處理能力提出了越來(lái)越高的要求。如何在場(chǎng)景中快速準(zhǔn)確地找到與任務(wù)相關(guān)的局部信息,即物體選擇與識(shí)別,已經(jīng)成為計(jì)算機(jī)信息處理領(lǐng)域的一個(gè)研究熱點(diǎn)。隨著在心理學(xué)領(lǐng)域注意機(jī)制研究的不斷發(fā)展,將注意機(jī)制引入信息處理領(lǐng)域來(lái)解決物體識(shí)別問(wèn)題,已經(jīng)不再是紙上談兵。
人類(lèi)視覺(jué)系統(tǒng)進(jìn)行視覺(jué)信息處理時(shí),總是迅速選擇少數(shù)幾個(gè)顯著對(duì)象進(jìn)行優(yōu)先處理,忽略或舍棄其他的非顯著對(duì)象。進(jìn)入人類(lèi)視野的海量信息,通過(guò)注意選擇機(jī)制進(jìn)行篩選,就能使我們有選擇地分配有限的視覺(jué)處理資源,保證視覺(jué)信息處理的效率,這就是視覺(jué)選擇注意機(jī)制的原理。依據(jù)人類(lèi)視覺(jué)選擇注意的基本原理,開(kāi)發(fā)能夠進(jìn)行智能圖像信息處理的計(jì)算機(jī)系統(tǒng),就成為一大任務(wù)。我們研究的主要方向是使計(jì)算機(jī)處理對(duì)象時(shí),能夠具備與人類(lèi)相似的視覺(jué)選擇注意能力。
2.視覺(jué)注意機(jī)制
研究視覺(jué)注意機(jī)制是個(gè)多學(xué)科交叉的問(wèn)題,目前多個(gè)領(lǐng)域的研究人員都取得了研究成果,并且對(duì)視覺(jué)注意的理論都形成了一些共識(shí)。目前普遍認(rèn)為注意既可以是按自底向上(自下而上)的圖像數(shù)據(jù)驅(qū)動(dòng)的,也可以是安自頂向下(自上而下)的任務(wù)驅(qū)動(dòng)的。其中,自下而上的研究主要來(lái)自圖像中物體數(shù)據(jù)本身的顯著性。例如,在視覺(jué)搜索實(shí)驗(yàn)中,顯著的物體會(huì)自動(dòng)跳出,如圖1中的圓點(diǎn)通過(guò)特征對(duì)比,以形狀跳出的形式獲得注意。自上而下的引導(dǎo)主要來(lái)自當(dāng)前的視覺(jué)任務(wù),以及場(chǎng)景的快速認(rèn)證結(jié)果,即我們可以“故意”去注意任何一個(gè)“不起眼”的物體,如我們可以在圖書(shū)館浩如煙海的藏書(shū)中,找到自己感興趣的那本書(shū)。
研究視覺(jué)注意機(jī)制的重要方法是研究眼睛在搜索目標(biāo)時(shí)的表現(xiàn)。顯著圖中的各目標(biāo)在競(jìng)爭(zhēng)中吸引注意點(diǎn),注意點(diǎn)在各個(gè)注意目標(biāo)間轉(zhuǎn)移。根據(jù)注意點(diǎn)轉(zhuǎn)移時(shí)是否伴隨眼動(dòng),視覺(jué)注意也分為隱式注意和顯式注意。隱式注意的中央凹不會(huì)隨著注意點(diǎn)的轉(zhuǎn)移而移動(dòng),而顯式注意的中央凹隨每次注意點(diǎn)的轉(zhuǎn)移而運(yùn)動(dòng)。
對(duì)視覺(jué)注意機(jī)制的研究為計(jì)算機(jī)視覺(jué)的發(fā)展提供了可能。計(jì)算機(jī)視覺(jué)借鑒人類(lèi)視覺(jué)的注意機(jī)制,建立視覺(jué)注意的計(jì)算模型。通過(guò)“注意點(diǎn)”的選擇與轉(zhuǎn)移,實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景中任務(wù)的搜索與定位,最終來(lái)實(shí)現(xiàn)實(shí)時(shí)信息的響應(yīng)處理。在計(jì)算機(jī)視覺(jué)的研究中,顯式注意應(yīng)用較多。
3.計(jì)算機(jī)視覺(jué)注意模型
從人的角度來(lái)看,人類(lèi)視覺(jué)系統(tǒng)通過(guò)視覺(jué),選擇注意在復(fù)雜的場(chǎng)景中迅速將注意力集中在少數(shù)幾個(gè)顯著的視覺(jué)對(duì)象上。從場(chǎng)景的角度來(lái)看,場(chǎng)景中的某些內(nèi)容比其他內(nèi)容更能引起觀察者的注意,我們稱(chēng)之為視覺(jué)顯著性,兩者其實(shí)是從不同的角度對(duì)視覺(jué)選擇注意過(guò)程的描述。
我們把引起注意的場(chǎng)景內(nèi)容定義為注意焦點(diǎn)FOA(Focus of Attention)。Treisman的特征整合理論中將視覺(jué)信息處理過(guò)程劃分為前注意和注意兩個(gè)階段,各種視覺(jué)特征在前注意階段被以并行的方式提取出來(lái),并在注意階段以串行方式整合為視覺(jué)客體,即注意的特征和客體是通過(guò)不同方式進(jìn)行的。在注意焦點(diǎn)的選擇和轉(zhuǎn)移上,Koch[2]進(jìn)行了深入的研究,他提出注意焦點(diǎn)FOA的變化具有四個(gè)特征,即單焦點(diǎn)性:同一時(shí)刻只能存在一個(gè)FOA;縮放性:FOA的空間范圍可以擴(kuò)大或者縮?。唤裹c(diǎn)轉(zhuǎn)移性:FOA能夠由一個(gè)位置向另一個(gè)位置轉(zhuǎn)移;鄰近優(yōu)先性:FOA轉(zhuǎn)移時(shí)傾向于選擇與當(dāng)前注視內(nèi)容接近的位置。同時(shí)注意焦點(diǎn)具有抑制返回的特點(diǎn),即FOA轉(zhuǎn)移時(shí)抑制返回最近被選擇過(guò)的注視區(qū)域。在此基礎(chǔ)上,視覺(jué)注意的研究人員提出了多種視覺(jué)注意模型。
4.視覺(jué)注意模型的研究現(xiàn)狀
人類(lèi)的視覺(jué)注意過(guò)程包括兩個(gè)方面:一方面是對(duì)自下而上的初級(jí)視覺(jué)特征的加工,另一方面是由自上而下的任務(wù)的指導(dǎo),兩方面結(jié)合,共同完成了視覺(jué)的選擇性注意。與此對(duì)應(yīng),當(dāng)前的計(jì)算機(jī)視覺(jué)注意研究也分為這兩個(gè)方面。
4.1自下向上的數(shù)據(jù)驅(qū)動(dòng)注意模型研究及分析
在沒(méi)有先驗(yàn)任務(wù)指導(dǎo)的情況下,視覺(jué)注意的目標(biāo)選擇主要是由場(chǎng)景中自下而上的數(shù)據(jù)驅(qū)動(dòng)的,目標(biāo)是否被關(guān)注,由它的顯著性決定?,F(xiàn)在,自下而上的注意研究主要基于Treisman的特征整合理論和Koch&Ullman的顯著性模型,Itti、satoh等人均在此基礎(chǔ)上提出了自己的研究模型,并做了一些模型的改進(jìn)研究。自下而上的研究方法通過(guò)對(duì)輸入圖像提取顏色、朝向、亮度等方面的基本視覺(jué)特征的研究,形成各個(gè)特征對(duì)應(yīng)的顯著圖。另外,一些研究者采用基于局部或全局對(duì)比度的方法,來(lái)得到圖中每個(gè)像素的顯著性,進(jìn)而得到顯著圖。
現(xiàn)有的自下而上的視覺(jué)注意計(jì)算模型中,Itti的顯著圖模型(簡(jiǎn)稱(chēng)Itti模型)最具代表性。該模型主要包含3個(gè)模塊:特征提取、顯著圖生成和注意焦點(diǎn)轉(zhuǎn)移。模型通過(guò)初級(jí)特征的提取,將多種特征、多種尺度的視覺(jué)空間通過(guò)中央―周邊算子得到的各個(gè)特征的顯著性圖合成一幅顯著圖。顯著圖中的各個(gè)目標(biāo)通過(guò)勝者為王的競(jìng)爭(zhēng)機(jī)制,選出唯一的注意目標(biāo),其中注意焦點(diǎn)的轉(zhuǎn)移用的是禁止返回機(jī)制。但該模型也有一些缺點(diǎn),如顯著區(qū)與目標(biāo)區(qū)域有偏差、計(jì)算量較大、運(yùn)行時(shí)間較長(zhǎng)、動(dòng)態(tài)場(chǎng)景中實(shí)時(shí)處理不平等。
在動(dòng)態(tài)場(chǎng)景之中,由于Itti模型很難滿(mǎn)足實(shí)時(shí)性的要求,科研工作者們正在努力研究動(dòng)態(tài)場(chǎng)景的特性,并建立相應(yīng)的動(dòng)態(tài)模型。如Wolfe[1]指出,影響前注意的特征包括顏色、方向、曲率、尺寸、運(yùn)動(dòng)、深度特征、微調(diào)支距、光澤、形狀,等等,其中又以運(yùn)動(dòng)特征最為敏感。而You等采用了一種空間域特征和時(shí)間域特征相結(jié)合的視覺(jué)注意模型,該模型假設(shè)當(dāng)場(chǎng)景中存在全局運(yùn)動(dòng)時(shí),視覺(jué)注意對(duì)象將極少做運(yùn)動(dòng)。然而,許多真實(shí)的場(chǎng)景并不能滿(mǎn)足這個(gè)假設(shè),限制了模型的適用范圍。Hang等人提出了一種運(yùn)動(dòng)圖的計(jì)算方法,并把運(yùn)動(dòng)圖作為特征之一,與顏色、亮度、方向等特征結(jié)合。這些研究關(guān)注了運(yùn)動(dòng)特征對(duì)視覺(jué)的影響,但是均存在一定的局限性,對(duì)于復(fù)雜的運(yùn)動(dòng)場(chǎng)景的注意焦點(diǎn)計(jì)算很難取得良好的效果。
我國(guó)研究者也在Itti注意模型的基礎(chǔ)上研究了適合動(dòng)態(tài)場(chǎng)景中的注意模型,形成了一些理論成果。如曾志宏[2]等人提出注意焦點(diǎn)計(jì)算模型,鄭雅羽[3]等提出基于時(shí)空特征融合的視覺(jué)注意計(jì)算模型。這些模型都能較好地提取動(dòng)態(tài)場(chǎng)景下的視覺(jué)目標(biāo)。
4.2自上而下的任務(wù)驅(qū)動(dòng)的注意模型研究及分析
自上而下的注意即任務(wù)驅(qū)動(dòng)的注意,通過(guò)目標(biāo)和任務(wù)的抽象知識(shí),在一定程度上指導(dǎo)注意焦點(diǎn)的選擇。在自上而下注意模型的研究方面,Laar(1997)提出了一個(gè)用于隱式視覺(jué)注意的模型,該模型通過(guò)任務(wù)學(xué)習(xí),將注意集中于重要的特征。Rabak[4]提出了基于注意機(jī)制的視覺(jué)感知識(shí)別模型,該模型在定義目標(biāo)顯著性時(shí),通過(guò)語(yǔ)義分析對(duì)其他三個(gè)自下向上的視覺(jué)控制參數(shù)項(xiàng)進(jìn)行線性組合。Salah將可觀測(cè)馬爾科夫模型引入到模擬任務(wù)驅(qū)動(dòng)的注意模型研究中,并在數(shù)字識(shí)別和人臉識(shí)別的實(shí)驗(yàn)中取得了很好的效果。Itti提出以調(diào)節(jié)心理閾值函數(shù)的形式來(lái)控制視覺(jué)感知。
目前對(duì)自下而上的數(shù)據(jù)驅(qū)動(dòng)方面的研究較多,而對(duì)自下而上的任務(wù)驅(qū)動(dòng)方面研究較少。因?yàn)槿蝿?wù)驅(qū)動(dòng)的注意與人的主觀意識(shí)有關(guān),同時(shí)受到場(chǎng)景的全局特征影響。自上而下的注意涉及記憶、控制等多個(gè)模塊的分工協(xié)作,其過(guò)程非常復(fù)雜。
5.計(jì)算機(jī)視覺(jué)注意模型研究的趨勢(shì)
自底向上和自頂向下的加工是兩種方向不同的信息處理機(jī)制,兩者的結(jié)合形成了統(tǒng)一的視知覺(jué)系統(tǒng)。人類(lèi)的視覺(jué)信息處理系統(tǒng)只有遵循這樣的方法,才能有效地實(shí)現(xiàn)視覺(jué)選擇注意的目的。
實(shí)踐證明,把自底向上和自頂向下的研究相分離的研究方法并不能很好地解決計(jì)算機(jī)的視覺(jué)注意過(guò)程。要想使計(jì)算機(jī)能夠準(zhǔn)確模擬人類(lèi)的視覺(jué)注意過(guò)程,實(shí)現(xiàn)主動(dòng)的視覺(jué)選擇注意的目的,采用兩種研究方法相結(jié)合的形式勢(shì)在必行。自底向上的視覺(jué)注意計(jì)算往往離不開(kāi)與自頂向下的有機(jī)結(jié)合,實(shí)現(xiàn)二者的優(yōu)勢(shì)互補(bǔ)是以后計(jì)算機(jī)視覺(jué)注意研究的一個(gè)趨勢(shì)。
參考文獻(xiàn):
[1]Wolf J M,Cave K R.Deploying visual attention:the guided search model.In:Troscianko T,Blake A,eds.AI and the Eye.Chichester,UK:Wiley press,1990.
[2]曾志宏,周昌樂(lè),林坤輝,曲延云,陳嘉威.目標(biāo)跟蹤的視覺(jué)注意計(jì)算模型[J].計(jì)算機(jī)工程,2008,(23).
[3]鄭雅羽,田翔,陳耀武.基于時(shí)空特征融合的視覺(jué)注意模型[J].吉林大學(xué)學(xué)報(bào),2009,(11).
[4]Rabak I A,Gusakova V I,Golovan A V,et al.A model of attention-guided vision perception and recognition.Vision Research,1998,38.
關(guān)鍵詞OpenCV;科學(xué)教育;推廣價(jià)值
1、OpenCV庫(kù)簡(jiǎn)介
OpenCV是由Intel微處理器研究實(shí)驗(yàn)室的視覺(jué)交互組開(kāi)發(fā)的一個(gè)跨平臺(tái)計(jì)算機(jī)視覺(jué)庫(kù),它的代碼都是開(kāi)源的而且都經(jīng)過(guò)非常好的優(yōu)化,并且具有很好的移植性,可以根據(jù)需求導(dǎo)入到合適的環(huán)境中使用。它可以實(shí)現(xiàn)有關(guān)圖像識(shí)別與處理和計(jì)算機(jī)視覺(jué)技術(shù)方面的很多通用算法。它的優(yōu)勢(shì)是可以運(yùn)行在當(dāng)代社會(huì)使用熱門(mén)的各大操作系統(tǒng)上,適用性強(qiáng),還可以脫離外部庫(kù)而獨(dú)立運(yùn)行。OpenCV的C和C++都是經(jīng)過(guò)優(yōu)化的開(kāi)源代碼,采用靈活的接口,提升計(jì)算機(jī)的運(yùn)行速度。其中包含的函數(shù)就有500多個(gè),包括的種類(lèi)有C和C++等。OpenCV因?yàn)槊赓M(fèi)面向市場(chǎng),已經(jīng)被社會(huì)各界廣泛使用?,F(xiàn)已應(yīng)用于人機(jī)互動(dòng)、圖像識(shí)別、圖像分割、目標(biāo)追蹤、3D重建、機(jī)器視覺(jué)、結(jié)構(gòu)分析等數(shù)個(gè)領(lǐng)域。OpenCV主要包括以下幾個(gè)部分:①cxcore:核心功能模塊,包含一些基本函數(shù),運(yùn)用于各種數(shù)據(jù)類(lèi)型的計(jì)算。②cv:圖像處理和計(jì)算機(jī)視覺(jué)功能。③ml:機(jī)器學(xué)習(xí)模塊,主要內(nèi)容是分類(lèi)器。④cvaux:包括大部分實(shí)驗(yàn)性的函數(shù),例如ViewMorph-ing、三維跟蹤、PCA、HMM等。⑤Highgui:圖像界面接口,支持?jǐn)z像頭的讀取和轉(zhuǎn)換。
2、OpenCV處理圖像的功能
OpenCV中有很多的函數(shù),可以實(shí)現(xiàn)很多不同的功能,其中最具有學(xué)習(xí)價(jià)值的部分就是圖像處理。處理圖像主要分為三部分:加載圖像,顯示圖像,處理圖像。
2.1加載圖像
不同類(lèi)型的圖像有著不同的內(nèi)部結(jié)構(gòu)。我們需要根據(jù)圖像的結(jié)構(gòu)采用合適的方法將圖像文件中的數(shù)據(jù)讀入內(nèi)存。OpenCV中的cvLoadImage()函數(shù),可以加載圖像數(shù)據(jù)。而且圖像的格式不影響加載的效果,加載后它以一個(gè)指向IplImage結(jié)構(gòu)體的指針形式返回,大大方便了后續(xù)處理的過(guò)程。2.2顯示圖像加載圖像后需要通過(guò)函數(shù)使其顯示。cvNamedWindow()函數(shù)由HighGUI庫(kù)提供,它可以在屏幕上創(chuàng)建一個(gè)窗口,將圖像顯示出來(lái)。cvShowImage()函數(shù)的作用是在這個(gè)創(chuàng)建的窗口中顯示出加載過(guò)后的圖像。觀察圖像時(shí)經(jīng)常用到的重要函數(shù)還有可以使程序暫停的函數(shù)cvWaitKey(),以及用于釋放內(nèi)存的函數(shù)cvReleaseImage()和cvDestoryWindow(),掌握并運(yùn)用這些函數(shù),就可以輕松的實(shí)現(xiàn)觀察圖像的功能。
2.3處理圖像
OpenCV中包含的多種函數(shù),可以達(dá)到圖像處理技術(shù)方面的很多效果,包括圖像灰度化函數(shù)cvtColor(),邊緣檢測(cè)函數(shù)Sobel()、Laplacian()、Canny(),其中Canny算子只能處理8位灰度圖,其余兩種8位32位都可以,合并梯度函數(shù)addWeighted(),放大縮小函數(shù)resize(),閾值化操作函數(shù)imshow()等等。適當(dāng)選用合適的函數(shù)并加以運(yùn)用即可達(dá)到目標(biāo)所需。
3、OpenCV的推廣價(jià)值體現(xiàn)
OpenCV可以應(yīng)用在社會(huì)的各個(gè)領(lǐng)域,價(jià)值就體現(xiàn)在每個(gè)科學(xué)的產(chǎn)物當(dāng)中。舉個(gè)近在身邊的例子,隨著社會(huì)的發(fā)展,生活質(zhì)量的提高,人們的居住環(huán)境也在逐漸改善,樓層越蓋越高,無(wú)數(shù)摩天大樓,商業(yè)大廈群起而立,電梯已經(jīng)成為了我們?nèi)粘I钪斜夭豢缮俚墓ぞ?。盡管現(xiàn)在電梯的功能、質(zhì)量不斷地提升,但是仍然存在些許不足,當(dāng)我們?cè)趯W(xué)校的教學(xué)樓內(nèi)等電梯時(shí)發(fā)現(xiàn)了一個(gè)問(wèn)題,那就是在電梯使用的高峰期時(shí),比如在上下課時(shí)段,有很多人都在同一樓層等電梯。但是此時(shí)只有一臺(tái)離該樓層最近的電梯會(huì)過(guò)來(lái),而其余的電梯都會(huì)自動(dòng)向其它叫梯樓層運(yùn)行或是閑置。可是此時(shí)這一臺(tái)電梯只能容納有限數(shù)量的人,時(shí)常不能使所有人坐上電梯,這樣就無(wú)法滿(mǎn)足全部人的需求,由此就導(dǎo)致了有部分人無(wú)法及時(shí)地坐上電梯,需要繼續(xù)等候,而閑置的電梯又不能及時(shí)地被利用。這樣不僅不能合理地利用資源,反而浪費(fèi)了許多不必要的時(shí)間。因此,我們想到可以通過(guò)利用圖像識(shí)別與處理的方法來(lái)彌補(bǔ)這個(gè)不足,首先通過(guò)硬件設(shè)備連接拍照捕獲候梯人像,后臺(tái)運(yùn)行判斷出候梯人數(shù),然后運(yùn)用語(yǔ)言編程來(lái)確定調(diào)動(dòng)電梯的個(gè)數(shù),從而來(lái)達(dá)到實(shí)現(xiàn)自動(dòng)控制每個(gè)電梯的運(yùn)行的目的,使所有人都能在第一時(shí)間乘坐電梯。而上文中提到的OpenCV就可以完成這項(xiàng)艱巨的任務(wù)。我們將OpenCV導(dǎo)入編程環(huán)境,其次修改電梯工作系統(tǒng)的運(yùn)行程序,將軟件與硬件設(shè)備相連通,這樣通過(guò)調(diào)度程序,就可以輕松高效地解決這個(gè)問(wèn)題。使用這種方法,不僅可以節(jié)約人們的候梯時(shí)間,方便學(xué)生、老師上課,而且可以合理有效地調(diào)度電梯,使電梯的價(jià)值得到最大化。見(jiàn)微知著,OpenCV可以應(yīng)用在每個(gè)領(lǐng)域,對(duì)各界的發(fā)展起到推動(dòng)作用,造福社會(huì)的科技發(fā)展,方便人們的生活。
4、科學(xué)教育存在的問(wèn)題
在歷年的教學(xué)模式中,老師們往往會(huì)強(qiáng)調(diào)理論知識(shí)的重要性,但卻忽略了對(duì)學(xué)生使用動(dòng)手能力的培養(yǎng),學(xué)生不能獨(dú)立完成實(shí)踐性的技術(shù)操作,也就是說(shuō)教學(xué)模式缺乏實(shí)踐性。只有將理論與實(shí)踐相結(jié)合,才能實(shí)現(xiàn)知識(shí)價(jià)值的最大化,因此,應(yīng)當(dāng)在教學(xué)中配合著實(shí)踐課程,舉一反三,讓學(xué)生們更加深刻地學(xué)習(xí)和了解所學(xué)到的知識(shí)。而如今雖然一部分學(xué)校也開(kāi)設(shè)了實(shí)踐課程,但也只是淺嘗輒止,并沒(méi)有過(guò)多地講授計(jì)算機(jī)技術(shù)實(shí)踐方面的知識(shí),學(xué)生們也沒(méi)有真正擁有動(dòng)手實(shí)踐能力,這使學(xué)生們的技術(shù)知識(shí)十分受限。雖然現(xiàn)在多數(shù)學(xué)生對(duì)計(jì)算機(jī)略懂一二,但是實(shí)際上僅僅會(huì)使用類(lèi)似Word等簡(jiǎn)單的軟件,而技術(shù)要求較高的一些軟件及工具卻全然不知,甚至對(duì)自己所學(xué)過(guò)的課程軟件的使用也是馬馬虎虎,這對(duì)于未來(lái)工作所需的能力來(lái)講,實(shí)在是九牛一毛。目前中學(xué)生使用電腦的重心更多放在了社交軟件和游戲上,很少有人利用計(jì)算機(jī)學(xué)習(xí)更多的技能,這對(duì)青少年的發(fā)展實(shí)在是利大于弊的,而且這樣也失去了計(jì)算機(jī)的正向價(jià)值。因此,我們應(yīng)該改變現(xiàn)有的教學(xué)模式,一邊教授理論知識(shí),一邊配合指導(dǎo)學(xué)生動(dòng)手操作,將理論與實(shí)踐相結(jié)合,也能讓學(xué)生更好地消化和吸收所學(xué)到的知識(shí),并且引導(dǎo)學(xué)生正確使用計(jì)算機(jī),發(fā)揮計(jì)算機(jī)的價(jià)值,讓學(xué)生們都能夠在計(jì)算機(jī)中獲得更多的知識(shí)。
5OpenCV開(kāi)源算法庫(kù)在各個(gè)領(lǐng)域的實(shí)例化體現(xiàn)
OpenCV在醫(yī)學(xué)領(lǐng)域、軍事領(lǐng)域、安全防護(hù)領(lǐng)域等都有很大的重要意義。在醫(yī)學(xué)領(lǐng)域中,由于有了這個(gè)開(kāi)源算法庫(kù),我們可以盡可能地調(diào)用它,從而來(lái)進(jìn)行圖像處理、對(duì)象檢測(cè),讓醫(yī)生更好更快速觀測(cè)人體結(jié)構(gòu),及時(shí)發(fā)現(xiàn)病癥。在軍事領(lǐng)域中,大多數(shù)無(wú)人操作的機(jī)器運(yùn)作,比如無(wú)人機(jī)飛行、水下無(wú)人駕駛儀、無(wú)人駕駛汽車(chē)等等,都需要用到OpenCV來(lái)對(duì)圖像進(jìn)行處理,并進(jìn)行分析,并且可以檢測(cè)出人眼看不到的事物,這是OpenCV能夠帶來(lái)人類(lèi)的巨大的進(jìn)步。在安全防護(hù)領(lǐng)域中,我們現(xiàn)實(shí)生活中常見(jiàn)的汽車(chē)的安全駕駛,房屋入侵的檢測(cè)、自動(dòng)監(jiān)視報(bào)警系統(tǒng)等等,正是由于這些技術(shù),讓我們的環(huán)境更加安全,這都是我們生活中息息相關(guān)不可缺少的?,F(xiàn)如今,國(guó)家的科學(xué)技術(shù)飛速發(fā)展,日益強(qiáng)盛,OpenCV的成績(jī)有目共睹,未來(lái)的發(fā)展需要科學(xué)技術(shù)的不斷推進(jìn),才能為祖國(guó)未來(lái)的其他事業(yè)提供強(qiáng)有力的后盾。
6OpenCV在科學(xué)教育中的作用
在文化改革的大背景下,文盲的概念早已從沒(méi)有文化轉(zhuǎn)變成了不會(huì)使用計(jì)算機(jī)。因?yàn)殡S著科技的進(jìn)步,計(jì)算機(jī)的使用已經(jīng)越來(lái)越廣泛,計(jì)算機(jī)已經(jīng)逐步取代了以往人工可以完成的許多工作,比如在超市生成的結(jié)賬單、用計(jì)算機(jī)控制動(dòng)力系統(tǒng)的運(yùn)行、人造衛(wèi)星軌跡的計(jì)算等等,這些都依賴(lài)于計(jì)算機(jī)強(qiáng)大的功能。計(jì)算機(jī)的推廣證明著我國(guó)科技的發(fā)展和人類(lèi)文明的進(jìn)步,由此可見(jiàn),計(jì)算機(jī)技術(shù)知識(shí)的掌握對(duì)現(xiàn)代人來(lái)說(shuō)是十分重要的。如果想要成為一個(gè)真正有技術(shù)、有能力的人才,就務(wù)必要熟練掌握計(jì)算機(jī)技術(shù)的使用。但是目前當(dāng)代社會(huì)的教育在計(jì)算機(jī)技術(shù)方面的內(nèi)容還不夠豐富。減壓政策開(kāi)放以來(lái),教育課時(shí)被壓縮,技術(shù)知識(shí)的傳輸也相應(yīng)減少,學(xué)生們的能力也因此日益下降。而科學(xué)教育,顧名思義,是使科學(xué)技術(shù)在教育過(guò)程中得以傳承。想要科學(xué)地教育學(xué)生,就必須要多多講授科學(xué)技術(shù)方面有關(guān)的知識(shí)。說(shuō)到科學(xué)技術(shù),它的重點(diǎn)自然是計(jì)算機(jī)技術(shù),而OpenCV作為計(jì)算機(jī)視覺(jué)技術(shù)的核心,可以說(shuō)也是計(jì)算機(jī)技術(shù)甚至科學(xué)教育中的一個(gè)重要部分。在教育中普及并傳承這個(gè)技術(shù)無(wú)疑可以提高學(xué)生們的技術(shù)水平。但是,相信有大多數(shù)的人在此之前從未聽(tīng)說(shuō)過(guò)計(jì)算機(jī)視覺(jué)技術(shù),也并不了解OpenCV庫(kù),更加不會(huì)學(xué)習(xí)到與之有關(guān)的技術(shù)知識(shí)。在這樣嚴(yán)峻的形勢(shì)下,我們更應(yīng)該將類(lèi)似OpenCV方面技術(shù)有關(guān)的知識(shí)通過(guò)教育傳遞下去。各大高校應(yīng)積極開(kāi)展有關(guān)計(jì)算機(jī)的活動(dòng),開(kāi)設(shè)與計(jì)算機(jī)技術(shù)有關(guān)的課程。這樣才能根據(jù)社會(huì)的需求來(lái)培養(yǎng)更多的綜合性人才。如果可以將其投入到現(xiàn)代教育當(dāng)中,定會(huì)使現(xiàn)在的教育事業(yè)更加輝煌,也能使祖國(guó)的未來(lái)更加璀璨。
參考文獻(xiàn)
[1]于仕琪,劉瑞禎.學(xué)習(xí)OpenCV(中文版)[M].北京:清華大學(xué)出版社,2009.
[2]陰法名.基于OpenCV圖像處理[J].科技信息,2009(32):220.
[3]賈小軍,喻擎蒼.基于開(kāi)源計(jì)算機(jī)視覺(jué)庫(kù)OpenCV的圖像處理[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(4):276-278.
[4]陳勝勇.基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)[M].北京:科學(xué)出版社,2008.
[5]劉潔,馮貴玉,張汗靈.一種圖像處理和計(jì)算機(jī)視覺(jué)的開(kāi)發(fā)工具[J].計(jì)算機(jī)仿真,2006(11).
關(guān)鍵詞:多模態(tài);檢索;圖像特征
0 引言
現(xiàn)階段基于圖像檢索普遍采用方式是人工對(duì)上傳到網(wǎng)絡(luò)中的數(shù)字圖像進(jìn)行文字標(biāo)注,根據(jù)每幅圖像的視覺(jué)特征人為的設(shè)置他們的文字描述。在檢索時(shí),使用標(biāo)注的文字作為關(guān)鍵字來(lái)檢索我們想要的數(shù)字圖像。這種依據(jù)圖像標(biāo)注的文字匹配檢索的方法簡(jiǎn)稱(chēng)為“字找圖”,它的缺點(diǎn)為:(1)由于需要大量的人工對(duì)每幅圖像進(jìn)行文字標(biāo)注,數(shù)字圖像的數(shù)量是海量的,標(biāo)注工作是非常耗費(fèi)人力和時(shí)間;(2)由于每個(gè)人對(duì)圖像的認(rèn)識(shí)不同,所以,在標(biāo)注的過(guò)程中會(huì)按照自己對(duì)圖像的認(rèn)識(shí)來(lái)選擇標(biāo)注文字,這樣會(huì)使不同的人對(duì)圖像的標(biāo)注不同,而在檢索中會(huì)產(chǎn)生很大誤差;(3)不同國(guó)家使用的標(biāo)注文字不同,所以在匹配文字時(shí)也會(huì)產(chǎn)生很大的偏差;(4)有的圖像里面含有大量的內(nèi)容,不可能用幾個(gè)關(guān)鍵字就能表達(dá)清楚。為解決標(biāo)注圖像檢索的缺陷問(wèn)題。學(xué)者著手開(kāi)展對(duì)內(nèi)容的圖像檢索技術(shù)的研究。基于多模態(tài)的圖像檢索的改善了此類(lèi)瓶頸問(wèn)題,主要從被檢圖像庫(kù)根據(jù)海量圖像特征進(jìn)行檢測(cè)和匹配,獲取圖像之間的相關(guān)性特征信息。
1 基于多模態(tài)的圖像特征匹配方法
(1)直接從圖像中尋找匹配線索,而不是通過(guò)人為的文字標(biāo)注,正因?yàn)檫@個(gè)特點(diǎn),突破了傳統(tǒng)的關(guān)鍵字標(biāo)注的耗費(fèi)人力時(shí)間的缺點(diǎn),而是直接對(duì)圖像本身進(jìn)行處理和分析,使檢索更貼近圖像本身。
(2)檢索可以是人機(jī)交互的,當(dāng)使用一種特征選取方式檢索的結(jié)果不能滿(mǎn)足人們的需求時(shí),人們可以人工的改變特征選取方式使檢索結(jié)果向于人們需求的方向接近。這樣避免了計(jì)算機(jī)檢索圖像時(shí)的不靈活性,加入了人為的因素。因此,人和計(jì)算機(jī)結(jié)合檢索能使效率和準(zhǔn)確率更高。
(3)基于內(nèi)容的圖像檢索是一種相似性檢索,可以將檢索結(jié)果進(jìn)行相似性排序,我們可以采取逐步求精的算法,不斷減小檢索的范圍,直到定位到準(zhǔn)確目標(biāo),這與傳統(tǒng)數(shù)據(jù)庫(kù)精確匹配有很大的不同。
由于這些方法,基于多模態(tài)內(nèi)容的圖像檢索漸漸成為人們研究的重點(diǎn),此類(lèi)技術(shù)可以應(yīng)用在社會(huì)安全、遙感、醫(yī)學(xué)、數(shù)字圖書(shū)館、建筑、計(jì)算機(jī)輔助設(shè)計(jì)、地理信息系統(tǒng)、商標(biāo)版權(quán)管理、等諸多領(lǐng)域。
2 基于紋理識(shí)別的多模態(tài)的圖像檢索系統(tǒng)的框架和技術(shù)
基于紋理識(shí)別的多模態(tài)圖像檢索系統(tǒng)組成部分如圖1所示。
(1)輸入模塊:分析和獲取圖像的紋理特征值,并將特征向量輸入圖像特征數(shù)據(jù)庫(kù)。
(2)描述模塊:利用查詢(xún)抽象檢索技術(shù),實(shí)現(xiàn)將用戶(hù)需求抽象提取相關(guān)圖像特征語(yǔ)義,并完整描述成計(jì)算機(jī)能進(jìn)行識(shí)別的特征向量。
(3)檢索模塊:與圖像數(shù)據(jù)庫(kù)的圖像紋理特征值進(jìn)行相關(guān)性匹配,根據(jù)機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)跨語(yǔ)義的特征向量進(jìn)行學(xué)習(xí)和篩選,獲取最符合查詢(xún)要求的圖像信息,并返回給用戶(hù)。
3 基于圖像紋理特征的檢測(cè)方法
圖像有三大底層特征,分別是顏色特征、紋理特征和形狀特征。紋理特征是顯著的視覺(jué)特征,其弱化了顏色和亮度的作用,但它吸收了表面結(jié)構(gòu)的排列與組織次序,而且表現(xiàn)出了上下文的關(guān)系,反映出了同質(zhì)再現(xiàn)的視覺(jué)特征。
紋理源于人們對(duì)物體表面觸感的概念,這種固有的內(nèi)在特征反映了物體表面的組織結(jié)構(gòu)或者上下文內(nèi)容的關(guān)系等諸多有用的信息,或者反映了圖像像素間的灰度變化情況或者顏色變化情況。組成紋理的基本元素叫作紋元或者紋理基元,是一個(gè)觸發(fā)視覺(jué)感知并且特性相對(duì)穩(wěn)定的基本單元,這些單元在一定的區(qū)域內(nèi)的不同位置會(huì)以不同的形態(tài)再現(xiàn),主要是灰度或色彩模式呈現(xiàn)不同特點(diǎn),其包含多個(gè)像素,在物體表面呈現(xiàn)三種:周期性、準(zhǔn)周期性或隨機(jī)性。
如今,神經(jīng)網(wǎng)絡(luò)、最近鄰分類(lèi)器、決策樹(shù)和支持向量機(jī)等模式方法已經(jīng)廣泛的應(yīng)用到了許多領(lǐng)域,譬如圖像分類(lèi)、視頻處理、檢索等。模式類(lèi)就是由一些共同屬性所決定的,模式分類(lèi)就是根據(jù)對(duì)象的特征或?qū)傩赃M(jìn)行分類(lèi)。
按照學(xué)習(xí)方法的監(jiān)督程度,也就是根據(jù)否存在先驗(yàn)知識(shí)并且是否使用到這些先驗(yàn)知識(shí),模式分類(lèi)方法可以分為監(jiān)督分類(lèi)和非監(jiān)督分類(lèi)。
監(jiān)督分類(lèi)對(duì)各對(duì)象分類(lèi)的依據(jù)是通過(guò)訓(xùn)練樣本,選擇合適的特征參數(shù),以此建立判別函數(shù)。監(jiān)督分類(lèi)必須要有分類(lèi)區(qū)域的先驗(yàn)類(lèi)別知識(shí)用以建立判別函數(shù),從而獲得訓(xùn)練分類(lèi)器,它把圖像分解為多個(gè)組成部分,求解各部分之間的空間關(guān)系。一般監(jiān)督分類(lèi)在訓(xùn)練階段需要手工選擇分類(lèi)區(qū)域從而可以確定模型。
在沒(méi)有先驗(yàn)知識(shí)情況下,非監(jiān)督分類(lèi)能夠有效地分類(lèi),是因?yàn)槠涓鶕?jù)圖像像元間的相似度和從分析數(shù)據(jù)上得到的統(tǒng)計(jì)特性,它不需要獲取判別函數(shù)集而去進(jìn)行場(chǎng)地訓(xùn)練。熟知并且常用的K-means和ISODATA法就是非監(jiān)督分類(lèi)方法,也是一種聚類(lèi)分析方法。這種方法是將圖像視作一些特征的集合,先對(duì)這些特征進(jìn)行聚類(lèi)分析,得到特征單詞和特征碼,再用統(tǒng)計(jì)方法對(duì)特征單詞和特征碼進(jìn)行統(tǒng)計(jì)分析,最后根據(jù)統(tǒng)計(jì)特征進(jìn)行有效分類(lèi)。
前面一種分類(lèi)是根據(jù)監(jiān)督程度來(lái)劃分,模式分類(lèi)方法還可以分為經(jīng)驗(yàn)型分類(lèi)方法和理論型分類(lèi)方法,此時(shí)是根據(jù)有無(wú)前人分類(lèi)算法的思想。經(jīng)驗(yàn)型方法中比較常用的有最近鄰分類(lèi)器、RBF網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)等。理論型模式分類(lèi)算法比較常用的有貝葉斯分類(lèi)器,支持向量機(jī),這種分類(lèi)算法數(shù)量較少,遠(yuǎn)沒(méi)有經(jīng)驗(yàn)型分類(lèi)方法多。貝葉斯分類(lèi)器通過(guò)計(jì)算樣本概率的差異,將樣本進(jìn)行分類(lèi),但是分布函數(shù)的求取較為困難;支持向量機(jī)方法SVM基于統(tǒng)計(jì)學(xué)習(xí)理論,在實(shí)際應(yīng)用中取得了一定的成效。
技術(shù)層面:以骨干企業(yè)為創(chuàng)新主體,結(jié)合高校、科研院所等智力資源,著力突破一批重大共性關(guān)鍵技術(shù)。
自然語(yǔ)言處理。研發(fā)自動(dòng)分詞、命名實(shí)體識(shí)別、詞性標(biāo)注等自然語(yǔ)言處理基礎(chǔ)技術(shù),開(kāi)展語(yǔ)法分析、語(yǔ)義分析、對(duì)話(huà)管理、意圖檢測(cè)等深度技術(shù)研究,重點(diǎn)突破對(duì)話(huà)級(jí)別的語(yǔ)義理解及知識(shí)問(wèn)答技術(shù),語(yǔ)篇級(jí)別的語(yǔ)義理解分析技術(shù)和高精度的文本情感分析技術(shù)等。
計(jì)算機(jī)視覺(jué)。利用深度學(xué)習(xí)技術(shù)提升識(shí)別效果,研發(fā)面向電視遙控、手機(jī)遙控、汽車(chē)導(dǎo)航等交互領(lǐng)域的手勢(shì)識(shí)別技術(shù);研發(fā)面向人數(shù)估計(jì)、擁堵分析、目標(biāo)跟蹤、異常檢測(cè)等的大規(guī)模人群視頻監(jiān)控與智能分析技術(shù),形成具有國(guó)際先進(jìn)水平的、完整的自主知識(shí)產(chǎn)權(quán)、可轉(zhuǎn)移轉(zhuǎn)化的計(jì)算機(jī)視覺(jué)軟件系統(tǒng)。
機(jī)器學(xué)習(xí)。通過(guò)實(shí)現(xiàn)可以靈活變換的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),應(yīng)對(duì)不同類(lèi)型數(shù)據(jù)的隱層模型、百億級(jí)別的數(shù)據(jù)處理能力和模型尺度;賦予機(jī)器類(lèi)人腦的時(shí)空認(rèn)知能力,形成機(jī)器學(xué)習(xí)的時(shí)空建模框架和更接近人類(lèi)感知系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。
知識(shí)圖譜。面向教育、互動(dòng)娛樂(lè)、智能客服等特定領(lǐng)域,研究大規(guī)模知識(shí)圖譜中不同類(lèi)型知識(shí)的表示框架與學(xué)習(xí)機(jī)制,從非結(jié)構(gòu)化或半結(jié)構(gòu)化的互聯(lián)網(wǎng)信息中獲取有結(jié)構(gòu)的知識(shí),探索多源異構(gòu)信息的知識(shí)獲取與融合表示,自動(dòng)構(gòu)建知識(shí)圖譜,并研究知識(shí)表示驅(qū)動(dòng)的推理技術(shù)。
平臺(tái)層面:依托統(tǒng)一平臺(tái)實(shí)現(xiàn)智力、數(shù)據(jù)、技術(shù)和計(jì)算資源的高效對(duì)接,促進(jìn)產(chǎn)學(xué)研用聯(lián)合創(chuàng)新。
人工智能共性技術(shù)研發(fā)平臺(tái)。加強(qiáng)智能語(yǔ)音處理、計(jì)算機(jī)視覺(jué)、生物特征識(shí)別、自然語(yǔ)言處理、機(jī)器翻譯、知識(shí)圖譜、智能邏輯推理、機(jī)器自主學(xué)習(xí)、智能機(jī)器人等重大共性關(guān)鍵技術(shù)研發(fā),為行業(yè)及有潛力的應(yīng)用創(chuàng)新開(kāi)發(fā)企業(yè)和個(gè)人提供核心技術(shù)支撐,提供成熟的智能人機(jī)交互、自然語(yǔ)言處理、自動(dòng)知識(shí)檢索等共性技術(shù)引擎及產(chǎn)品。
人工智能開(kāi)放支撐服務(wù)平臺(tái)?;诿嫦蛉斯ぶ悄茴I(lǐng)域的大規(guī)模分布式軟硬件基礎(chǔ)設(shè)施,匯聚企業(yè)、高校、科研院所以及創(chuàng)業(yè)者等社會(huì)多方力量,建設(shè)面向全行業(yè)和創(chuàng)新應(yīng)用開(kāi)發(fā)者提供人工智能算法和服務(wù)支撐的云服務(wù)平臺(tái),實(shí)現(xiàn)技術(shù)向產(chǎn)業(yè)活動(dòng)和經(jīng)濟(jì)發(fā)展的高效轉(zhuǎn)化,推動(dòng)傳統(tǒng)產(chǎn)業(yè)和社會(huì)服務(wù)向智能化方向發(fā)展。
人工智能產(chǎn)業(yè)公共服務(wù)平臺(tái)。支持和鼓勵(lì)業(yè)內(nèi)政產(chǎn)學(xué)研用等單位,整合業(yè)內(nèi)相關(guān)資源,建立涵蓋戰(zhàn)略研究、咨詢(xún)服務(wù)、標(biāo)準(zhǔn)制定、評(píng)測(cè)認(rèn)證、應(yīng)用示范等功能于一體的產(chǎn)業(yè)公共服務(wù)平臺(tái),為行業(yè)發(fā)展提供全面支撐。
應(yīng)用層面:結(jié)合共性技術(shù)研發(fā)和平臺(tái)建設(shè)實(shí)際,優(yōu)先推動(dòng)在服務(wù)機(jī)器人、無(wú)人駕駛、信息安全等領(lǐng)域示范應(yīng)用。
智能客服。研發(fā)面向智能客戶(hù)服務(wù)的智能語(yǔ)音、語(yǔ)義理解等共性關(guān)鍵技術(shù),構(gòu)建特定領(lǐng)域知識(shí)庫(kù),研發(fā)自助客服、商業(yè)智能、生物特征識(shí)別認(rèn)證等平臺(tái)系統(tǒng)。
服務(wù)機(jī)器人。重點(diǎn)研發(fā)面向家庭環(huán)境的語(yǔ)音增強(qiáng)、室內(nèi)定位和導(dǎo)航跟蹤等共性關(guān)鍵技術(shù),整合傳感器和機(jī)械控制相關(guān)技術(shù)成果,實(shí)現(xiàn)軟硬件一體化的服務(wù)機(jī)器人綜合系統(tǒng),并在家庭、教育、醫(yī)療等方面形成示范應(yīng)用。
眼下,在北京中關(guān)村頤和園附近的一所宅院里,最接近科幻的一幕現(xiàn)實(shí)版故事正在上演。
落地
這是一家專(zhuān)注于計(jì)算機(jī)視覺(jué)以及人工智能的科技公司,致力于讓計(jì)算機(jī)像人一樣主動(dòng)獲取視覺(jué)信息并進(jìn)行精確的實(shí)時(shí)分析。它創(chuàng)立于2013年初,成立不久就獲得真格基金和聯(lián)創(chuàng)策源的天使投資,并于2014年6月獲得紅杉資本數(shù)千萬(wàn)美元A輪投資。
似乎有意無(wú)意和中關(guān)村的幾十萬(wàn)創(chuàng)業(yè)大軍和眾多極客有所區(qū)分,格靈深瞳選擇了一處古色古香的大院子作為辦公場(chǎng)所。本刊記者在一個(gè)有點(diǎn)陰雨的天氣里,隨著中關(guān)村管委會(huì)等部門(mén)組織的媒體團(tuán)來(lái)探訪這個(gè)有點(diǎn)神秘的科技公司。
一臉陽(yáng)光的格靈深瞳CEO何搏飛帶領(lǐng)眾人穿越回廊,讓人感覺(jué)在穿越格非小說(shuō)里的南方,而中央大廳里辦公的年輕人專(zhuān)注于電腦屏幕和鍵盤(pán)的神情則提醒我們這是一個(gè)IT公司。事實(shí)上,這里的人有不少來(lái)自美國(guó)斯坦福、布朗大學(xué)等名校,而且,按照何搏飛的說(shuō)法,這里完全按照硅谷的方法來(lái)管理。
當(dāng)我們落座在會(huì)議室的時(shí)候,何搏飛和同事打開(kāi)了鏈接投影儀的電腦,他早就準(zhǔn)備了一場(chǎng)演說(shuō)。他的同事也有一些散落在聽(tīng)眾席上,年輕的臉上洋溢著青春的印記。在講述了人工智能時(shí)代的趨勢(shì)之外,何搏飛也介紹了他們正在做的具體業(yè)務(wù)。
作為一種并不那么科幻的務(wù)實(shí)之舉,格靈深瞳現(xiàn)階段聚焦于將人工智能及模式識(shí)別技術(shù)應(yīng)用到安防、交通、零售等領(lǐng)域,客戶(hù)包括了中國(guó)網(wǎng)點(diǎn)最多的銀行、銷(xiāo)售額最高的商場(chǎng),以及客流量最大的機(jī)場(chǎng)等。這是一個(gè)可以讓技術(shù)優(yōu)勢(shì)變現(xiàn)的領(lǐng)域,可以讓格靈深瞳不至于凌空蹈虛。
這是一塊大蛋糕。據(jù)何搏飛的介紹,安防監(jiān)控領(lǐng)域的中國(guó)市場(chǎng)規(guī)模在2013年就已達(dá)到4000億人民幣,比智能手機(jī)的市場(chǎng)高出了800多億,而且未來(lái)中國(guó)安防監(jiān)控領(lǐng)域還有巨大的增長(zhǎng)空間。
關(guān)于行業(yè)痛點(diǎn),他分別從“監(jiān)”和“控”兩個(gè)層面給大家進(jìn)行了分析。以國(guó)內(nèi)某大型機(jī)場(chǎng)的航站樓為例,中控室里面的每個(gè)保安需要同時(shí)看12500個(gè)攝像頭的畫(huà)面,由于人的生理極限限制,這是不可能辦到的;再以天安門(mén)為例,所有的攝像頭每24小時(shí)產(chǎn)生的數(shù)據(jù)量為1800T,如果天安門(mén)發(fā)生了一件事,需要找到當(dāng)事人,工作量也龐大得難以想象。
現(xiàn)在格靈深瞳可以有辦法解決傳統(tǒng)監(jiān)控“看不見(jiàn)”和“找不到”的問(wèn)題。他們自主研發(fā)的“深瞳無(wú)人監(jiān)控安防系統(tǒng)”可以實(shí)時(shí)地監(jiān)控人的行為并作出判斷,在最短時(shí)間內(nèi)發(fā)現(xiàn)甚至預(yù)判一些非常規(guī)事件的發(fā)生,比如暴力、跌倒等。
聚人
格靈深瞳的兩個(gè)創(chuàng)始人,一個(gè)是受過(guò)良好商業(yè)訓(xùn)練的經(jīng)理人,一個(gè)是頂尖的科學(xué)人才,構(gòu)成了最初的人才組合。CEO何搏飛畢業(yè)于斯坦福大學(xué)商學(xué)院,曾先后成功創(chuàng)建了兩家美國(guó)公司中國(guó)區(qū)的團(tuán)隊(duì)和業(yè)務(wù),29歲就擔(dān)任了美國(guó)上市公司中國(guó)區(qū)總經(jīng)理。而CTO的趙勇則是畢業(yè)于布朗大學(xué)計(jì)算機(jī)工程系的博士,他另一個(gè)令人矚目的身份是前Google Research研究員和谷歌眼鏡核心團(tuán)隊(duì)成員。
這種組合猶如蘋(píng)果當(dāng)年喬布斯和沃茲的組合??萍己蜕虡I(yè),誰(shuí)也離不開(kāi)誰(shuí)。
真格基金很早就介入到這個(gè)創(chuàng)業(yè)團(tuán)隊(duì)中。如果沒(méi)有王強(qiáng)和徐小平的運(yùn)作和推動(dòng),趙勇何時(shí)回中國(guó)恐怕還是個(gè)未知數(shù)。
王強(qiáng)和徐小平都是新東方教師出身,敦厚愛(ài)才之心常溢于言表。他們先后投資了陳歐、季逸超、趙勇等人。在投資季逸超的時(shí)候,他們看中的居然是季逸超只做和直接現(xiàn)實(shí)不大相關(guān)的事情。而作為谷歌眼鏡研發(fā)團(tuán)隊(duì)之一的趙勇,最初身上似乎也并未可見(jiàn)有多大的“市場(chǎng)屬性”。
王和徐曾兩次在硅谷和趙勇喝酒,卻從來(lái)沒(méi)談創(chuàng)業(yè)或技術(shù)改變世界。他們注意到趙勇“內(nèi)心涌動(dòng)著一種東西?!蓖鯊?qiáng)和徐小平覺(jué)察到了什么呢?也許趙勇在谷歌感到了瓶頸,他的自由生長(zhǎng)欲望被阻礙了。
徐小平捕捉到了趙勇內(nèi)心的那種閃動(dòng),開(kāi)始動(dòng)員他創(chuàng)業(yè),據(jù)說(shuō)花了一年半左右的時(shí)間。
2013年趙勇拎著皮箱告別谷歌,來(lái)到小平的住處。他回來(lái)之前很多基金也是非常興奮,都說(shuō)投,但是當(dāng)天晚上小平告訴趙勇,其他的基金不投了,因?yàn)樗F(xiàn)在沒(méi)有產(chǎn)品,也沒(méi)有什么方向。小平說(shuō):“我們?nèi)?,你敢扔掉谷歌,我們?yōu)槭裁床桓胰游覀兊腻X(qián)?”
王強(qiáng)的觀念是這樣的:“投資的工夫在投資之外,大家都在算數(shù)字的時(shí)候我就不算,你可能獲得的就是大數(shù)字,你天天算小數(shù)字,非常清晰加在一起也是非常有限的,人生投資創(chuàng)業(yè)都是一樣的道理?!?/p>
現(xiàn)在,在頤和園旁邊的大宅院里,已經(jīng)聚集了25個(gè)人,這些都是有夢(mèng)想的年輕人。他們中有21歲的陳心怡,她曾就讀于普林斯頓大學(xué),是第一個(gè)獲得美國(guó)“20 under 20”獎(jiǎng)項(xiàng)的中國(guó)人,這個(gè)獎(jiǎng)會(huì)給予每個(gè)獲獎(jiǎng)?wù)呤f(wàn)美元的資金,而獲獎(jiǎng)的一個(gè)必要條件就是必須輟學(xué)去做一些有意義有創(chuàng)意的事情,心怡最后加入了格靈深瞳;宋晨,美國(guó)麻省理工學(xué)院碩士畢業(yè),在通用電氣工作了8個(gè)月,放棄了還有3個(gè)月就可以到手的北京戶(hù)口,迫不及待地加入了格靈深瞳;覃曉飛,西安交大的一名工科研究生,憑著自己的興趣運(yùn)營(yíng)了一個(gè)微信公眾號(hào),因?yàn)楹尾w的朋友圈屢次被該公眾號(hào)的內(nèi)容刷屏,在好奇心的驅(qū)使下,他聯(lián)系上了覃曉飛,給了他一個(gè)月的實(shí)習(xí)機(jī)會(huì)。在覃曉飛實(shí)習(xí)的第20天時(shí),他決定退學(xué)加入格靈深瞳。何搏飛說(shuō),這三個(gè)優(yōu)秀的年輕人只是格靈深瞳員工團(tuán)隊(duì)的一個(gè)縮影,是一群有理想有熱情有創(chuàng)業(yè)夢(mèng)想的優(yōu)秀人才的代表。
造風(fēng)
在一次極客圈里的聚會(huì)活動(dòng)中。趙勇用了幾個(gè)科技大片感十足的視頻為大家展示了機(jī)器人的工作場(chǎng)景。借助機(jī)器視覺(jué),機(jī)器人甚至可以在跳動(dòng)的心臟上做手術(shù),機(jī)器人也可以代替人開(kāi)車(chē)。之后,計(jì)算機(jī)視覺(jué)的想象空間會(huì)越來(lái)越大。他還指出,機(jī)器視覺(jué)的三個(gè)關(guān)鍵技術(shù)是3D視覺(jué)、高性能計(jì)算(神經(jīng)網(wǎng)絡(luò)計(jì)算)、機(jī)器深度學(xué)習(xí)。
顯然,這家公司可以發(fā)力的領(lǐng)域還很寬廣。安全監(jiān)控市場(chǎng)只是他們展開(kāi)應(yīng)用和市場(chǎng)化的第一個(gè)領(lǐng)域,這家公司把自己定位在更為前沿的人工智能類(lèi)的公司,它面向的是一個(gè)近乎無(wú)限的市場(chǎng)。
何搏飛認(rèn)為,互聯(lián)網(wǎng)的盛宴已經(jīng)宣告結(jié)束,打通人與機(jī)器的連接才是未來(lái)的奧秘之地。目前人能理解機(jī)器,未來(lái)機(jī)器要能更理解人。而格靈深瞳正在做的,是從視覺(jué)入手,讓機(jī)器有智能化的視覺(jué)能力,能讀懂人的行為模式。只有當(dāng)人與物之間能夠有效地雙向聯(lián)系,讓世間萬(wàn)物能夠像人一樣感知和思考,才能最大程度地釋放出計(jì)算機(jī)的潛能為人服務(wù),這就是即將到來(lái)的“人工智能”時(shí)代,也就是“萬(wàn)物智能”的時(shí)代。
無(wú)獨(dú)有偶,前微軟亞太研發(fā)集團(tuán)主席張亞勤也發(fā)表過(guò)類(lèi)似觀點(diǎn):下一波科技趨勢(shì)是“互聯(lián)網(wǎng)的物理化”,即從現(xiàn)在開(kāi)始到未來(lái)的幾十年,更多數(shù)字虛擬的世界將走向?qū)嶓w,物理化。
格靈深瞳的投資人徐小平和王強(qiáng)對(duì)這個(gè)公司贊不絕口,甚至親自上場(chǎng),在一個(gè)網(wǎng)絡(luò)視頻里為公司的招聘做代言。在視頻里,平時(shí)較為學(xué)究氣的王強(qiáng)援引哈羅德?布魯姆的話(huà)說(shuō),傳統(tǒng)的印刷文字的想像文學(xué)的時(shí)代,將會(huì)被一種視覺(jué)文化來(lái)替代。而計(jì)算機(jī)網(wǎng)絡(luò)的智能化又是一個(gè)非常明顯的趨勢(shì),所以格靈深瞳踩對(duì)了未來(lái)的兩個(gè)最重要的或者全部的節(jié)點(diǎn)。
徐小平認(rèn)為格靈深瞳的出現(xiàn),讓全世界的計(jì)算機(jī)擁有了人類(lèi)那樣的獨(dú)立自主的判斷。這個(gè)公司做的是根本性的顛覆人類(lèi)與世界關(guān)系的這么一種科技預(yù)產(chǎn)品。他興奮地?fù)u動(dòng)著肩膀和兩只手,用歡快的語(yǔ)氣說(shuō):“我只能說(shuō)我充滿(mǎn)了無(wú)限的遐想,以及堅(jiān)定的信念?!?/p>
筆者有點(diǎn)納悶,作為初創(chuàng)型公司,格靈深瞳的宣傳視頻是否略顯高調(diào)了呢?中國(guó)人平時(shí)都講究含蓄,悶聲不響發(fā)大財(cái)。但接下去的內(nèi)容讓筆者若有所悟。
趙勇坦言,計(jì)算機(jī)視覺(jué)本身只是對(duì)世界進(jìn)行感知的一個(gè)技術(shù)。要讓它完成一個(gè)價(jià)值的話(huà),需要整個(gè)思維體系、行動(dòng)體系來(lái)配合?!氨热缯f(shuō)我們要指揮一個(gè)機(jī)器人,除了感知技術(shù)以外,要把自動(dòng)控制結(jié)合起來(lái),要把通訊結(jié)合起來(lái),還要把機(jī)械傳動(dòng)結(jié)合起來(lái),才能夠形成一個(gè)完整的設(shè)備以及一個(gè)完整的服務(wù)或者體驗(yàn)?!彼愿耢`深瞳需要各個(gè)方面的優(yōu)秀計(jì)算機(jī)工程師和科學(xué)家。
筆者的感受是:格靈深瞳其實(shí)已經(jīng)找準(zhǔn)了一塊非常有潛力的領(lǐng)域,而且在關(guān)鍵環(huán)節(jié)建立了一定核心優(yōu)勢(shì),這將撬起一個(gè)大產(chǎn)業(yè)。這時(shí)候,打出旗號(hào),召集最優(yōu)秀的人的聚集,就是搶占前沿領(lǐng)域的一個(gè)重要步驟――得人才者得天下,適當(dāng)?shù)妮浾撛靹?shì)也是一種必要的策略。
【關(guān)鍵詞】智能車(chē)輛 機(jī)器視覺(jué) 發(fā)展
一、前言
機(jī)器視覺(jué)技術(shù),即計(jì)算機(jī)視覺(jué)技術(shù),是智能車(chē)輛行駛環(huán)境感知的通道,一些控制決策參數(shù)直接由機(jī)器視覺(jué)獲取。例如,智能車(chē)輛自主導(dǎo)航行駛時(shí)前方預(yù)瞄點(diǎn)位置的獲取,超車(chē)行駛時(shí)前方車(chē)輛和車(chē)道邊界位置的獲取等等都要由機(jī)器視覺(jué)來(lái)完成。機(jī)器視覺(jué)系統(tǒng)在智能車(chē)輛上的應(yīng)用源于20世紀(jì) 80年代中期。其早期研究是針對(duì)具有良好的室內(nèi)試驗(yàn)環(huán)境條件進(jìn)行設(shè)計(jì)的。
從20世紀(jì)90年代中期開(kāi)始,智能車(chē)輛機(jī)器視覺(jué)的研究出現(xiàn)兩個(gè)發(fā)展方向,其中一個(gè)發(fā)展方向是相對(duì)簡(jiǎn)單的機(jī)器視覺(jué)系統(tǒng)在智能車(chē)輛中的早期應(yīng)用。主要體現(xiàn)在如下幾個(gè)方面:(1)機(jī)器視覺(jué)橫向輔助導(dǎo)航系統(tǒng)。(2)自適應(yīng)導(dǎo)航控制系統(tǒng)。(3)自主“停車(chē)啟動(dòng)”駕駛系統(tǒng)。(4)換道輔助系統(tǒng)[1]。智能車(chē)輛機(jī)器視覺(jué)技術(shù)發(fā)展的另一個(gè)方向是研制開(kāi)發(fā)具有擬人駕駛性能水平的復(fù)雜機(jī)器視覺(jué)系統(tǒng)。從長(zhǎng)遠(yuǎn)來(lái)看,這種視覺(jué)系統(tǒng)還應(yīng)具有自學(xué)習(xí)的功能。目前,德國(guó)聯(lián)邦國(guó)防大學(xué)(UBM)著名學(xué)者Dickmanns教授開(kāi)展了“多焦距主動(dòng)汽車(chē)眼”(MarVEye-Multi-focal active/reactive Vehicle Eye)的研究。這種新型的綜合視覺(jué)系統(tǒng)將智能車(chē)輛機(jī)器視覺(jué)技術(shù)提高到了一個(gè)新的水平。
二、國(guó)內(nèi)外研究現(xiàn)狀
機(jī)器視覺(jué)導(dǎo)航智能車(chē)輛已經(jīng)成為當(dāng)今智能車(chē)輛的發(fā)展主流,世界各主要國(guó)家都在競(jìng)相開(kāi)展智能車(chē)輛視覺(jué)系統(tǒng)的研究。機(jī)器視覺(jué)系統(tǒng)是智能車(chē)輛感知局部環(huán)境的重要“器官”,而其所起的核心作用無(wú)外乎兩個(gè):識(shí)別行駛道路邊界與行駛環(huán)境中的其它車(chē)輛(主要指前方車(chē)輛)或其它障礙物。具體地講,就是利用安裝在智能車(chē)輛前方的單目或多目光學(xué)CCD攝像機(jī)(或其它傳感器)實(shí)時(shí)地獲取圖像,利用圖像中的信息根據(jù)設(shè)計(jì)的算法識(shí)別出道路邊界位置和前方車(chē)輛位置,再將這些路、車(chē)位置信息傳給智能車(chē)輛的指揮系統(tǒng),為其自主導(dǎo)航?jīng)Q策提供依據(jù)。而國(guó)內(nèi)外的研究工作也主要集中在道路位置識(shí)別和前方車(chē)輛識(shí)別這兩個(gè)方面。
目前對(duì)道路邊界的識(shí)別主要集中在直線路形和路旁障礙物較少的道路條件。直線路形識(shí)別較為簡(jiǎn)單,用直線方程描述道路邊界,可以大大減少計(jì)算量,此技術(shù)也相對(duì)較為成熟,例如有霍夫變換法,通過(guò)幾何折射關(guān)系直接將道路邊界標(biāo)注出來(lái)。這種方法的缺點(diǎn)是受噪聲尤其是直線噪聲的影響較大,且算法不穩(wěn)定。
吉林大學(xué)智能車(chē)輛課題組用基于圖像灰度與方差統(tǒng)計(jì)的方法識(shí)別直線路界,即在得到圖像后進(jìn)行預(yù)處理并在最終的二值圖像中劃分網(wǎng)格,通過(guò)計(jì)算各網(wǎng)格的統(tǒng)計(jì)特性,由馬氏距離區(qū)分道路邊界點(diǎn)與非邊界點(diǎn),得到邊界點(diǎn)最多的一條直線作為直線道路邊界。此方法能夠準(zhǔn)確的識(shí)別道路邊界,但當(dāng)路旁噪聲較大時(shí)識(shí)別效果不夠理想。同時(shí),基于熵最大化邊緣提取的圖像預(yù)處理過(guò)程由于算法復(fù)雜,耗時(shí)較長(zhǎng)。
由于彎曲路形模式較為復(fù)雜,情況變化多樣,算法難以統(tǒng)一,并且由于算法的復(fù)雜性,很難滿(mǎn)足準(zhǔn)確性和實(shí)時(shí)性要求。因此國(guó)內(nèi)外對(duì)彎曲路徑識(shí)別的研究從方法上并不成熟。國(guó)外有人用具有某些特征的曲線方程擬合彎曲路界,但由于參數(shù)的增加,計(jì)算量增大,因此很難滿(mǎn)足實(shí)時(shí)性要求。國(guó)內(nèi)有人用直線整條或分段近似擬合彎曲路界,在車(chē)道邊界曲率不大時(shí)能夠基本滿(mǎn)足要求,但當(dāng)曲率較大時(shí)識(shí)別準(zhǔn)確性不高。因此,可以認(rèn)為對(duì)道路邊界尤其是彎曲道路邊界的識(shí)別還有待于進(jìn)一步研究。
由于前方車(chē)輛在圖像中的灰度信息特征很不明顯,例如當(dāng)車(chē)輛在遠(yuǎn)方與近處時(shí)的灰度統(tǒng)計(jì)特性、紋理特性、外形特性等完全不同。因此,算法魯棒性是一個(gè)非常棘手的問(wèn)題。很難提出一種滿(mǎn)足各種狀態(tài)的識(shí)別算法。一般利用機(jī)器視覺(jué)進(jìn)行車(chē)輛識(shí)別的方法可分為以下三類(lèi):
(1)基于車(chē)輛特征的方法。該方法利用圖像中車(chē)輛存在的特征(紋理、邊緣、對(duì)稱(chēng)性以及底部陰影等)進(jìn)行分割和識(shí)別。這種方法的缺點(diǎn)是,當(dāng)單獨(dú)使用某一種特征時(shí),經(jīng)常會(huì)因光照或環(huán)境的變化,導(dǎo)致該特征信息量不足。因此,極易出現(xiàn)錯(cuò)判或漏判的現(xiàn)象。
(2)基于模板匹配的方法。這種方法利用大量的預(yù)先做好的車(chē)輛模板(基于灰度信息或小波特征) ,與實(shí)時(shí)采集的圖像進(jìn)行匹配。尋找相關(guān)性最大的匹配區(qū)域作為車(chē)輛存在區(qū)域。通常,這種方法魯棒性相對(duì)較好,缺點(diǎn)是實(shí)時(shí)性較差。
(3)基于學(xué)習(xí)的方法。這種方法的本質(zhì)是利用神經(jīng)網(wǎng)絡(luò),對(duì)大量的車(chē)輛圖像進(jìn)行訓(xùn)練,然后通過(guò)分類(lèi)器進(jìn)行分類(lèi)。通常這種方法被用來(lái)對(duì)已檢測(cè)的車(chē)輛進(jìn)行驗(yàn)證。
吉林大學(xué)智能車(chē)輛課題組提出一種基于車(chē)輛特征的方法識(shí)別和跟蹤前方的車(chē)輛。首先,利用車(chē)輛底部存在陰影的特征,在圖像中確定可能存在的車(chē)輛區(qū)域。然后,通過(guò)分形維數(shù)計(jì)算該區(qū)域的紋理特征,排除非車(chē)輛區(qū)域。這種方法對(duì)于強(qiáng)光條件和車(chē)輛顏色與路面的顏色特征相似的情況,識(shí)別和定位的效果不夠理想。
三、關(guān)鍵難點(diǎn)與長(zhǎng)遠(yuǎn)發(fā)展
在不考慮硬件設(shè)備的情況下,制約智能車(chē)輛視覺(jué)系統(tǒng)探測(cè)效果的三個(gè)關(guān)鍵因素是視覺(jué)系統(tǒng)所應(yīng)用算法的實(shí)時(shí)性、魯棒性和精確性。實(shí)時(shí)性要求視覺(jué)系統(tǒng)數(shù)據(jù)處理必須與車(chē)輛的高速行駛同步進(jìn)行;魯棒性要求智能車(chē)輛視覺(jué)系統(tǒng)在各種復(fù)雜的路面環(huán)境下均具有良好的適應(yīng)性,例如路面有大量樹(shù)木與建筑物陰影、變化的氣候條件等;精確性則要求視覺(jué)系統(tǒng)在一些復(fù)雜環(huán)境下不能出現(xiàn)過(guò)多的錯(cuò)判率。這三個(gè)要求相輔相成,互相制約。要完全達(dá)到上述要求,智能車(chē)輛機(jī)器視覺(jué)系統(tǒng)還需要很長(zhǎng)的發(fā)展歷程。目前有關(guān)智能車(chē)輛機(jī)器視覺(jué)系統(tǒng)的研究正處于一個(gè)高速發(fā)展的階段,由于硬件水平的提高和理論研究工作的深入,在可以預(yù)見(jiàn)的將來(lái)將達(dá)到一個(gè)更高的水平。
參考文獻(xiàn):
[1]王榮本, 游峰, 崔高健, 郭烈. 基于計(jì)算機(jī)視覺(jué)高速智能車(chē)輛的道路識(shí)別. 計(jì)算機(jī)工程與應(yīng)用,2004,(8):34-39
[2]顧柏園, 王榮本, 余天洪, 郭烈. 基于視覺(jué)的前方車(chē)輛探測(cè)技術(shù)研究方法綜述. 公路交通科技. 2005,(10):28-33
以人為中心的交互
傳統(tǒng)方式下,計(jì)算機(jī)通過(guò)多種設(shè)定的程序與人交互,需要人去主動(dòng)適應(yīng)計(jì)算機(jī)。在新的交互模式中,計(jì)算機(jī)則能根據(jù)人的動(dòng)作來(lái)主動(dòng)適應(yīng)人的要求,例如通過(guò)分析語(yǔ)音來(lái)識(shí)別人發(fā)出的命令,并通過(guò)語(yǔ)音合成來(lái)表達(dá)信息。
如何讓計(jì)算機(jī)“看”,屬于計(jì)算機(jī)視覺(jué)研究的范疇,已開(kāi)始應(yīng)用于實(shí)際的身份認(rèn)證技術(shù),例如虹膜識(shí)別、人臉識(shí)別等技術(shù),通過(guò)采集的圖像來(lái)獲得信息并得出結(jié)果?,F(xiàn)有的技術(shù)可以通過(guò)攝像機(jī)拍攝人的面部表情,然后利用圖像分析和識(shí)別技術(shù)進(jìn)行表情識(shí)別。能把圖像“看進(jìn)去”早已不是問(wèn)題,一個(gè)小小的攝像頭就能勝任,關(guān)鍵是如何從圖像中獲取所需的信息。要讓計(jì)算機(jī)像人一樣的“看”,最根本的問(wèn)題在于計(jì)算機(jī)對(duì)圖像的最終分析和理解,盡管圖片中的形狀、顏色、紋理已經(jīng)為計(jì)算機(jī)提供了較多的信息,但是要能用先驗(yàn)知識(shí)去思考、識(shí)別,就又回到了人工智能這個(gè)老問(wèn)題。
2002 年倫敦帝國(guó)學(xué)院的科研小組花費(fèi)數(shù)年時(shí)間來(lái)研究人類(lèi)眼睛活動(dòng)與大腦感知之間的關(guān)系,最終發(fā)明出一種專(zhuān)門(mén)用來(lái)捕捉眼球細(xì)微動(dòng)作的紅外線感應(yīng)裝置,被他們稱(chēng)為“眼標(biāo)”。它能鑒別眼睛在顯示屏上的移動(dòng)和注視,如果電腦使用者盯住屏幕上的某個(gè)鏈接圖標(biāo)1秒以上,電腦就自動(dòng)打開(kāi)該鏈接;如果使用者盯住打印或者存盤(pán)的圖標(biāo),電腦就會(huì)自動(dòng)進(jìn)行相應(yīng)的操作(附圖)
中科院自動(dòng)化所研制成功的通過(guò)臉部動(dòng)作來(lái)控制的智能輪椅,能夠讓使用者利用頭部姿態(tài)控制其轉(zhuǎn)動(dòng),即當(dāng)人的頭轉(zhuǎn)向左邊,輪椅左轉(zhuǎn);人的頭轉(zhuǎn)向右邊,輪椅右轉(zhuǎn)。這實(shí)際上是適時(shí)臉部跟蹤和頭位估計(jì)的問(wèn)題。
隨著傳感器技術(shù)的發(fā)展,越來(lái)越精確的交互方式成為可能,例如用于識(shí)別手勢(shì)的數(shù)據(jù)手套。它能對(duì)較為復(fù)雜的手的動(dòng)作進(jìn)行檢測(cè),包括手的位置和方向、手指彎曲度,并根據(jù)這些信息對(duì)手勢(shì)進(jìn)行分類(lèi)。類(lèi)似的,SimGraphics于1994年開(kāi)發(fā)的虛擬演員系統(tǒng),通過(guò)用戶(hù)戴上的安裝有觸及臉不同部位的傳感器的頭盔,來(lái)控制計(jì)算機(jī)生成表情圖像。
人機(jī)交互追求全方位
雖然語(yǔ)音、表情、姿態(tài)等均能獨(dú)立表示一定的含義,并在某些場(chǎng)合完成交互過(guò)程,但人在交互過(guò)程中卻總是通過(guò)各種信息的同時(shí)處理來(lái)進(jìn)行的。實(shí)現(xiàn)多通道的人機(jī)界面是人與計(jì)算機(jī)最為自然的交互方式,它集自然語(yǔ)言、語(yǔ)音、手語(yǔ)、人臉、唇讀、頭勢(shì)、體勢(shì)等多通道為一體的,并對(duì)這些通道信息進(jìn)行編碼、壓縮、集成和融合,集中處理包括圖像、音頻、視頻、文本等多媒體信息。目前,多模態(tài)技術(shù)正在成為智能人機(jī)交互的研究熱點(diǎn)。
“模糊”理解人的情感
精確交互技術(shù)能用一種技術(shù)來(lái)完全達(dá)到用戶(hù)的交互目的,例如鍵盤(pán)和鼠標(biāo)器均需用戶(hù)精確輸入。而人們的動(dòng)作或思想往往并不很精確,計(jì)算機(jī)應(yīng)該理解人的要求,甚至糾正人的錯(cuò)誤,智能化的交互界面就是為了實(shí)現(xiàn)這樣的目標(biāo)。與此同時(shí),新一代的人機(jī)交互過(guò)程能夠處理復(fù)雜的情感信息,這就是所謂的情感計(jì)算。
人的情緒與心境狀態(tài)的變化總是伴隨著某些生理特征或行為特征的起伏,人們表達(dá)情感通過(guò)一系列的面部表情、肢體動(dòng)作和語(yǔ)音來(lái)進(jìn)行,又通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)來(lái)感知情感的變化。視覺(jué)察覺(jué)則主要通過(guò)面部表情、姿態(tài)來(lái)進(jìn)行。語(yǔ)音、音樂(lè)則是主要的聽(tīng)覺(jué)途徑。觸覺(jué)模型則包括對(duì)、沖擊、汗液分泌、心跳等的處理。
情感計(jì)算研究的重點(diǎn)就在于通過(guò)各種傳感器獲取由人的情感所引起的生理及行為特征信號(hào),建立“情感模型”,從而創(chuàng)建一個(gè)能感知、識(shí)別和理解人類(lèi)情感的能力,并能針對(duì)用戶(hù)的情感做出智能、靈敏、友好反應(yīng)的個(gè)人計(jì)算系統(tǒng),縮短人機(jī)之間的距離,營(yíng)造真正和諧的人機(jī)環(huán)境。目前為止,有關(guān)研究已經(jīng)在人臉表情、姿態(tài)分析、語(yǔ)音的情感識(shí)別和表達(dá)方面獲得了一定的進(jìn)展。
無(wú)處不在的計(jì)算
由于新一代高速互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)帶寬和CPU 計(jì)算能力的成倍增長(zhǎng),以及多媒體技術(shù)的日益成熟,計(jì)算機(jī)、通信及多媒體技術(shù)逐步趨向融合。以互聯(lián)網(wǎng)為基礎(chǔ)的信息基礎(chǔ)設(shè)施,將成為人與人之間交互或人與信息源、外部世界交互的媒介。在這種環(huán)境下,計(jì)算將無(wú)處不在。
無(wú)處不在的計(jì)算最早是由已故的Xerox Parc計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室主任Mark Weiser 和他的研究小組在20 世紀(jì)90 年代初構(gòu)想并提出的。Mark認(rèn)為,從長(zhǎng)遠(yuǎn)看,個(gè)人計(jì)算機(jī)和工作站會(huì)消失,因?yàn)橛?jì)算會(huì)變得無(wú)處不在,這種消失并不是技術(shù)發(fā)展的直接后果,而是人類(lèi)心理的作用。當(dāng)人類(lèi)對(duì)某些事物掌握得足夠好的時(shí)候,這些事物就會(huì)成為生活中不可分割的一部分,人們就會(huì)慢慢地忽略其存在。今后,許多計(jì)算裝置也會(huì)變得就像Don Norman描述的那樣變成了不可見(jiàn)的計(jì)算機(jī),計(jì)算也會(huì)變成無(wú)處不在,不可見(jiàn)的人機(jī)交互也會(huì)無(wú)處不在的。就像我們時(shí)刻呼吸著的氧氣一樣,我們看不見(jiàn)卻可以體驗(yàn)到。
受到無(wú)處不在的計(jì)算以及穿戴式計(jì)算機(jī)和虛擬現(xiàn)實(shí)發(fā)展的影響,MIT Media Lab的H. Lshii等人對(duì)早期的GUI(Graspable UserInterface,可抓握用戶(hù)界面)理論進(jìn)行了重要發(fā)展,于1997 年提出有形用戶(hù)界面的思想。傳統(tǒng)的圖形用戶(hù)界面事實(shí)上成為隔離物質(zhì)世界和信息世界之間的屏障,而有形用戶(hù)界面希望在用戶(hù)、比特和原子之間建立一個(gè)無(wú)縫交互界面。
信息內(nèi)容的智能處理
人和計(jì)算機(jī)的交互一方面是為了獲得服務(wù),另一方面則需要通過(guò)計(jì)算機(jī)處理大量的信息。因此,智能人機(jī)交互的另一個(gè)重要范疇就是實(shí)現(xiàn)信息內(nèi)容的智能處理。
信息技術(shù)產(chǎn)品逐步進(jìn)入后PC時(shí)代,各式各樣的信息家電、網(wǎng)絡(luò)接入終端以及集成計(jì)算與通信功能的產(chǎn)品繁多。易用性、善解人意已逐漸變成信息設(shè)備參與市場(chǎng)競(jìng)爭(zhēng)的關(guān)鍵。甚至一個(gè)具有重大創(chuàng)新的知識(shí)產(chǎn)權(quán)將帶動(dòng)一個(gè)新產(chǎn)業(yè)。如中文和漢語(yǔ)信息處理,面向信息內(nèi)容的智能化處理技術(shù),包括文字與語(yǔ)音的識(shí)別、翻譯、查詢(xún)、分類(lèi)、摘要等。這方面的技術(shù)突破將極大地推動(dòng)信息服務(wù)業(yè)和計(jì)算機(jī)產(chǎn)業(yè)。
將信息轉(zhuǎn)變?yōu)橹R(shí)、將信息基礎(chǔ)設(shè)施發(fā)展為知識(shí)基礎(chǔ)設(shè)施是21世紀(jì)的重要技術(shù)發(fā)展方向。其中,軟件技術(shù)將在數(shù)據(jù)發(fā)掘、知識(shí)發(fā)現(xiàn)、Internet海量信息的智能化檢索和網(wǎng)上軟件機(jī)器人等方面進(jìn)行重點(diǎn)突破。
傳統(tǒng)與智能交互并存
新一代的智能人機(jī)交互,力圖淡化傳統(tǒng)的計(jì)算機(jī)數(shù)值計(jì)算的概念,突出以人為本的交互過(guò)程。那么傳統(tǒng)的以鍵盤(pán)、鼠標(biāo)和屏幕為基礎(chǔ)的GUI 交互界面是否馬上就會(huì)消失呢?
美國(guó)著名的計(jì)算機(jī)圖形學(xué)家A.VanDam 認(rèn)為:“雖然各種三維圖形的應(yīng)用發(fā)展得很快,如虛擬現(xiàn)實(shí)、科學(xué)計(jì)算可視化等,但GUI、3D Widget等都將長(zhǎng)期存在”。這是因?yàn)槟壳按罅康膽?yīng)用已經(jīng)采用成熟的GUI 技術(shù),因此GUI 不會(huì)被淘汰。
國(guó)內(nèi)外研究狀況
級(jí)別:北大期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)