1.計算機視覺技術(ComputerVision),什么是计算机视觉?
“人的大脑皮层的活动,大约70%是在处理视觉相关信息。视觉就相当于人脑的大门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速,其它感觉是两旁的人行道。如果不能处理视觉信息的话,整个人工智能系统是个空架子,只能做符号推理,比如下棋、定理证明,没法进入现实世界。计算机视觉之于人工智能,它相当于说芝麻开门。大门就在这里面,这个门打不开,就没法研究真实世界的人工智能。”——朱松纯,加州大学洛杉矶分校UCLA统计学和计算机科学教授根据科普中国撰写的对计算机视觉的定义,这是一门研究如何让机器“看”的科学,更进一步的说,是指用计算机代替人眼对目标进行识别、跟踪和测量的機器視覺,并进一步做图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。
2.计算机视觉VS機器視覺
计算机视觉更关注图像信号本身以及图像相关交叉领域(地图、医疗影像)的研究;機器視覺则偏重計算機視覺技術工程化,更关注广义上的图像信号(激光和摄像头)和自动化控制(生产线)方面的应用。
3.計算機視覺識別技術的分類
物體識別分爲“1VSN”對不同物體進行歸類,以及“1VS1”對同類型的物體進行區分和鑒別;物體屬性識別,結合地圖模型讓物體在視覺的三維空間裏得到記憶的重建,進而進行場景的分析和判斷;物體行爲識別分爲3個進階的步驟,移動識別判斷物體是否做了位移,動作識別判斷物體做的是什麽動作,行爲識別是結合視覺主體和場景的交互做出行爲的分析和判斷。
4.計算機視覺的識別流程
訓練模型:樣本數據包括正樣本(包含待檢目標的樣本)和負樣本(不包含目標的樣本),視覺系統利用算法對原始樣本進行特征的選擇和提取訓練出分類器(模型);此外因爲樣本數據成千上萬、提取出來的特征更是翻番,所以一般爲了縮短訓練的過程,會人爲加入知識庫(提前告訴計算機一些規則),或者引入限制條件來縮小搜索空間。
識別圖像:會先對圖像進行信號變換、降噪等預處理,再來利用分類器對輸入圖像進行目標檢測。一般檢測過程爲用一個掃描子窗口在待檢測的圖像中不斷的移位滑動,子窗口每到一個位置就會計算出該區域的特征,然後用訓練好的分類器對該特征進行篩選,判斷該區域是否爲目標。
5.計算機視覺技術模式图和对应企业图
目前世界上圖像識別最大的數據庫,是斯坦福大學人工智能實驗室提供的ImageNet,針對諸如醫療等細分領域也需要收集相應的訓練數據;Google、Microsoft此類科技巨頭會面向市場提供開源算法框架,爲初創視覺識別公司提供初級算法。