👀

ChatGPT-4 图文多模态发布

ChatGPT-4 的部分账户也已经开放了图片处理能力,这意味着,ChatGPT 不再仅仅只是一个文本对话工具,而是一个可以听、读、看,三位一体的超级应用。

1.如何点亮

打开 ChatGPT-4 的版本,输入框的左下角已经变成 + 号,点击后就会展开几种图片上传模式:

  1. 直接拍摄获取照片;
  2. 在相册中选取;
  3. 在文件应用中选取;
image
image

2.有哪些使用场景

1. 介绍物体和使用原理

ChatGPT 官方介绍的图片使用场景是通过图片,手把手教你如何修理自行车,对于孩子和自己的兴趣爱好来说,像《摩托车修理艺术》这种以手工为主的快乐工作,也可以在缺乏专业指导的情况,让 ChatGPT 教你。

我也对此进行了实验,上传彩椒,让它识别。以后去动物园和植物园,识别动物和花草的工作,可以交给 ChatGPT 了。

image

2. 图片识别人物

分别尝试了中国名人和外国名人,不出意料,ChatGPT 对中国名人一无所知。对于外国名人来说,prompt 还是需要讲清楚具体,才可以问出来。

image

我将人物具体到“中间的女人”。

image

然而它并不认识王鹤棣和罗永浩。

image

3. 解释概念

经常听网课和直播,有的时候随手会对一些有意思的内容截图。ChatGPT 可以很好地提取内容,并且进行扩展。

image

这张图是黄仁勋的一次演讲,介绍创业的不同阶段。ChatGPT 对这条曲线进行了进一步的解释。

image
image

基于图片上的概念,你可以继续和 ChatGPT 沟通,让它扩展概念应用的场景,让你在无尽的知识海洋中探索。且极易获得答案。

image
image

4. 给图片,ChatGPT 给代码

image

5. 读财经数据

image

使用时的注意事项

因为 ChatGPT 是一个公开的训练池,所以你上传的所有内容都会被 ChatGPT 读取理解,甚至公开。所以若某些信息是隐私,请不要上传到 ChatGPT 上哦。

对市场上应用的影响

  1. 会带了更多上层应用的爆发,如聊天机器人,图片识别(OCR 票据) 场景
  2. ChatGPT 的强劲能力,也会直接吞掉了在文本、语音、图片场景做应用的企业机会

如吴恩达所说,大家的机会,更好的是在长尾的复杂业务场景中竞争,通过 ChatGPT 简化了其过去的定制化,以及冗长的开发过程。

image

为什么国内那么多模型,还要看 ChatGPT?

国内也有许多大模型,如百度的文心一言,百川,字节豆包等等。但是当下最前沿,效果最好的仍然是 ChatGPT;我们需要通过了解 ChatGPT 来知道目前人工智能的发现情况和技术极限。

通过了解 ChatGPT,也可以释放我们对更多业务场景的想象力,毕竟国内的大模型也会一直努力的去追赶。