iOS最强AI「视觉智能」,苹果AI眼镜的前哨
在 iOS 18.2 Beta 2 上,苹果 Visual Intelligence(视觉智能)正式登场。
作为 Apple Intelligence 的一部分,Visual Intelligence 是 iPhone 16 系列上的「独占」功能。主要通过 iPhone 16系列上新增的相机按钮,利用摄像头捕捉物理世界的对象,并通过大模型分析有关该物体的「深度和有用信息」。
例如,拍摄餐厅的照片,用户可以立即获得其营业时间、评价和菜单等详细信息;拍摄活动传单的照片,该工具可以提取并整理重要详细信息,例如活动的名称、日期和地点。
Visual Intelligence 配合 iPhone 16 系列的相机按钮,具有免解锁、一键 AI 的特性,相对之前的 iPhone 或其他设备而言,具有更高效率。
基于 Visual Intelligence ,苹果也为接下来的 AI、AR 眼镜做了足够的技术铺垫、场景探索与用户习惯的养成。Ray-Ban Meta 已经证明了 AI 眼镜技术路径的可行性,苹果也于近日启动了代号为「Atlas」的智能眼镜项目,一场巨变正在酝酿。
Visual Intelligence ,以摄像头为核心的「空间GPT」
相对文字形式,图形图像属于典型的空间数据,是人们日常获取信息最主要的方式。Visual Intelligence 的出现,让这种信息获取现在有了更数字化的方式。
海外媒体在 iOS 18.2 Beta 的评测信息显示,当 Visual Intelligence 界面打开时,只需点击相机快门按钮即可拍照。然后,用户可以点击屏幕上的按钮向 ChatGPT 询问图片,也可以按搜索按钮启动 Google 搜索。用户可以选择在没有帐户的情况下使用 ChatGP;如果不登录,请求将保持匿名。
从下方的三张图中,分别展示了利用 Visual Intelligence 进行「识别物体」,「计算食物卡路里」,以及「提取重要信息」的场景,不管是利用「物体图片进行检索文字信息」,还是利用「图片上的文字检索更深度的图片、文字信息」,Visual Intelligence 都能很好地给出答案。
不同的是,一些是显而易见的基础信息,一些是需要网络数据的挖掘匹配,还有一些是需要持续对话进行挖掘。当然,这些取决于前置的 Prompt,如果有更完善的 AI 工作流设定,相信它会基于每种不同的物体,甚至不同的用户,给出千人千面的答案。如:当识别图片物体为「食物」时,自动去分析它的「卡路里」以及相关营养信息,而不仅仅是告诉我,它是什么,将会进一步提升效率。
图源:CNET
图源:Future
- 火星区块链
免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。