什么是计算机视觉

在人的六感之中，视觉是最重要的。计算机视觉（Computer Vision，CV）是AI的技术分支之一，主要研究如何让计算机拥有“看”的能力。这里的“看”不仅意味着看到并捕捉一段视频或图片，而且意味着能够分析并理解图像序列的内容和含义。

计算机视觉技术包括以下从简单到复杂的功能。

图像采集和处理——使用摄像头及其他类型的传感器采集真实世界中的三维场景，将其转化为视频。每段视频就是一系列的图像，而每个图像都是一个二维矩阵，矩阵里的每个点都代表人所能看到的颜色（这个点也就是所谓的“像素”）。
目标检测和图像分割——把图像划分为若干个不同区域和物体。Meta 发布了开源的新模型名叫 Segment Anything Model (SAM)，可以分割万物。

目标识别——对物体进行识别（例如识别出一只狗），并在此基础上掌握更多的细节特征（例如确认该狗为德国牧羊犬、深棕色等）。
目标追踪——在视频中定位和跟踪物体。
动作识别——对动作和手势进行识别，如Xbox体感游戏中的舞蹈动作。
场景理解——对一个完整的场景（例如一只饥饿的狗正在盯着一根骨头）进行分析并理解，掌握其中复杂而微妙的关系。

我们在“看”的时候，调用了许多过去积累的有关这个世界的知识，包括透视现象、几何学、常识，以及之前看过、学过的所有东西。对于人类而言，“看”似乎是一件自然而然的事情，但我们却很难把这项能力传授给计算机。计算机视觉就是一个旨在克服这些困难，让计算机学会“看”懂物体的研究领域。

计算机视觉的市场大小

2018年，AI计算机视觉市场的价值为49亿美元，预计到2025年将达到708亿美元，复合年增长率为45.46%。

计算机视觉技术的应用

事实上，目前的计算机视觉技术已经具备了实时处理能力，应用场景覆盖了许多领域，我们每天的生活里都有这种技术的身影，例如：

化身汽车上的“助理驾驶员”，监测人类驾驶员是否疲劳驾驶；
进驻无人超市（如天猫无人超市），通过摄像头自动识别顾客把商品放进购物车的过程；如：Caper 是一家通过计算机识别来识别商品，自动进行结算的软硬一体公司。https://www.caper.ai/

为机场提供安全保障，用于清点人数，识别是否有恐怖分子出没；
姿态识别，开发Xbox舞蹈游戏，为用户的动作打分；
人脸识别，让用户“刷脸”解锁手机；
智能相机，iPhone的人像模式可以识别并提取前景中的人物，巧妙地让背景虚化，效果堪比单反相机；
应用于军事领域，将敌方士兵与平民区分开，或打造无人机和自动驾驶汽车。如：美团的无人机物流

计算机视觉技术还可以基于现有的图像或视频进行“锦上添花”，例如：
对照片和视频进行智能编辑，比如美图秀秀等软件工具，在计算机视觉技术的支持下，可以实现优化抠图、去红眼、美化自拍等功能；
医学图像分析，比如检查判断肺部CT中是否有恶性肿瘤，如：微创机器人这家医疗器械公司。

内容过滤，监测社交媒体上是否出现色情、暴力等内容；
根据一段视频内容搭配相关广告；
实现智能图像搜索，根据关键字或图像线索查找目标图像；
实现换脸术，把原视频中A的脸替换为B的脸。

未来可能的危险：Deepfake

未来，可能会出现一款新 App，它能够帮助用户实现他们的“电影梦”：在短短的几分钟内，用户只要使用这款App进行自拍，就能收获一段专属视频——在指定的电影片段之中，用户的脸会替换男女主角的脸，并随着剧情的变化做出相应的表情和反应。

这也意味着，在我们的世界里，未来的所有数字信息都有被伪造的可能。无论是线上的视频、录音，还是安保摄像头拍摄的画面，甚至法庭上的视频证据，都有可能是假的。

除这种基于视频的 Deepfake 换脸方式外，还有一种换脸方法——三维建模，这种方法与3D动画片《玩具总动员》的制作过程类似。三维建模属于计算机科学分支之一——计算机图形学的研究范畴，这是一门使用数学算法对一切事物进行建模的学科，哪怕是像头发、微风、阳光、阴影一样细微的事物，也要有相应的数学模型。三维建模方法的优点在于，人们的创作自由度较高，可以随心所欲地创建各种物体，并操纵这个物体去做各种事情。但相应地，这种方法的缺点是计算复杂程度更高，对算力的要求也更大。

总结

计算机视觉是目前 AI 应用的最广泛的领域之一了，接下来我们会详细介绍一些具体的机器视觉场景和技术能力。尽情期待吧。

计算机视觉

什么是计算机视觉

计算机视觉的市场大小

计算机视觉技术的应用

未来可能的危险：Deepfake

总结

相关资源