计算机视觉
👀

计算机视觉

什么是计算机视觉

在人的六感之中,视觉是最重要的。计算机视觉(Computer Vision,CV)是AI的技术分支之一,主要研究如何让计算机拥有“看”的能力。这里的“看”不仅意味着看到并捕捉一段视频或图片,而且意味着能够分析并理解图像序列的内容和含义。

计算机视觉技术包括以下从简单到复杂的功能。

  • 图像采集和处理——使用摄像头及其他类型的传感器采集真实世界中的三维场景,将其转化为视频。每段视频就是一系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点都代表人所能看到的颜色(这个点也就是所谓的“像素”)。
  • 目标检测和图像分割——把图像划分为若干个不同区域和物体。Meta 发布了开源的新模型名叫 Segment Anything Model (SAM),可以分割万物。
image
  • 目标识别——对物体进行识别(例如识别出一只狗),并在此基础上掌握更多的细节特征(例如确认该狗为德国牧羊犬、深棕色等)。
  • 目标追踪——在视频中定位和跟踪物体。
  • 动作识别——对动作和手势进行识别,如Xbox体感游戏中的舞蹈动作。
  • 场景理解——对一个完整的场景(例如一只饥饿的狗正在盯着一根骨头)进行分析并理解,掌握其中复杂而微妙的关系。

我们在“看”的时候,调用了许多过去积累的有关这个世界的知识,包括透视现象、几何学、常识,以及之前看过、学过的所有东西。对于人类而言,“看”似乎是一件自然而然的事情,但我们却很难把这项能力传授给计算机。计算机视觉就是一个旨在克服这些困难,让计算机学会“看”懂物体的研究领域。

计算机视觉的市场大小

image

2018年,AI计算机视觉市场的价值为49亿美元,预计到2025年将达到708亿美元,复合年增长率为45.46%。

计算机视觉技术的应用

事实上,目前的计算机视觉技术已经具备了实时处理能力,应用场景覆盖了许多领域,我们每天的生活里都有这种技术的身影,例如:

  • 化身汽车上的“助理驾驶员”,监测人类驾驶员是否疲劳驾驶;
  • 进驻无人超市(如天猫无人超市),通过摄像头自动识别顾客把商品放进购物车的过程;如:Caper 是一家通过计算机识别来识别商品,自动进行结算的软硬一体公司。https://www.caper.ai/
image
  • 为机场提供安全保障,用于清点人数,识别是否有恐怖分子出没;
  • 姿态识别,开发Xbox舞蹈游戏,为用户的动作打分;
  • 人脸识别,让用户“刷脸”解锁手机;
  • 智能相机,iPhone的人像模式可以识别并提取前景中的人物,巧妙地让背景虚化,效果堪比单反相机;
  • 应用于军事领域,将敌方士兵与平民区分开,或打造无人机和自动驾驶汽车。如:美团的无人机物流
image
  • 计算机视觉技术还可以基于现有的图像或视频进行“锦上添花”,例如:
  • 对照片和视频进行智能编辑,比如美图秀秀等软件工具,在计算机视觉技术的支持下,可以实现优化抠图、去红眼、美化自拍等功能;
  • 医学图像分析,比如检查判断肺部CT中是否有恶性肿瘤,如:微创机器人这家医疗器械公司。
image
image
  • 内容过滤,监测社交媒体上是否出现色情、暴力等内容;
  • 根据一段视频内容搭配相关广告;
  • 实现智能图像搜索,根据关键字或图像线索查找目标图像;
  • 实现换脸术,把原视频中A的脸替换为B的脸。

未来可能的危险:Deepfake

image

未来,可能会出现一款新 App,它能够帮助用户实现他们的“电影梦”:在短短的几分钟内,用户只要使用这款App进行自拍,就能收获一段专属视频——在指定的电影片段之中,用户的脸会替换男女主角的脸,并随着剧情的变化做出相应的表情和反应。

这也意味着,在我们的世界里,未来的所有数字信息都有被伪造的可能。无论是线上的视频、录音,还是安保摄像头拍摄的画面,甚至法庭上的视频证据,都有可能是假的。

除这种基于视频的 Deepfake 换脸方式外,还有一种换脸方法——三维建模,这种方法与3D动画片《玩具总动员》的制作过程类似。三维建模属于计算机科学分支之一——计算机图形学的研究范畴,这是一门使用数学算法对一切事物进行建模的学科,哪怕是像头发、微风、阳光、阴影一样细微的事物,也要有相应的数学模型。三维建模方法的优点在于,人们的创作自由度较高,可以随心所欲地创建各种物体,并操纵这个物体去做各种事情。但相应地,这种方法的缺点是计算复杂程度更高,对算力的要求也更大。

总结

计算机视觉是目前 AI 应用的最广泛的领域之一了,接下来我们会详细介绍一些具体的机器视觉场景和技术能力。尽情期待吧。

相关资源