【CNMO科技音讯】几个月来,关于苹果方案推出AI智能穿戴设备的风闻和报导层出不穷。现在看来,苹果的智能眼镜有望在2027年左右发布,这将是Meta Ray-Bans的直接竞争对手,一起还将推出带有摄像头的AirPods,这些设备都将具有一系列AI功用。尽管现在尚不清楚这些设备的详细外观,但苹果现已向咱们展现了其AI模型或许的工作方法。
2023年,苹果机器学习研讨团队发布了MLX,这是苹果专为其芯片规划的开源机器学习结构。简而言之,MLX为开发者供给了一种轻量级的方法,能够在苹果设备上本地练习和运转模型,一起坚持与传统AI开发结构和言语的一致性。
苹果的新式视觉模型FastVLM,能快速精确地辨认用户举起的手指数量、屏幕上显现的表情符号以及手写文字。
现在,苹果推出了FastVLM,这是一种视觉言语模型(VLM),它使用MLX完成近乎即时的高分辨率图画处理,一起对核算资源的需求远低于同类模型。正如苹果所说:“根据对图画分辨率、视觉推迟、符号数量和LLM巨细之间相互作用的全面功率剖析,咱们推出了FastVLM——这是一个在推迟、模型巨细和精确性之间完成优化权衡的模型。”
FastVLM的中心是一个名为FastViTHD的编码器,该编码器“专为高分辨率图画的高效VLM功能而规划”。与相似模型比较,它速度高达3.2倍,体积小3.6倍。若设备需要在本地处理信息,而不是依靠云端来生成用户刚刚问询(或正在检查)的内容的呼应,这一点至关重要。
此外,FastVLM在规划时还考虑了削减输出符号数量,这在模型解说数据并生成呼应的推理阶段也至关重要。据苹果称,其模型的初次符号呼应时刻比相似模型快85倍,即用户发送第一个提示并收到第一个符号答案所需的时刻。更少的符号、更快且更轻量的模型意味着更快的处理速度。
FastVLM的代码已在GitHub上发布,相关陈述可在arXiv上找到。尽管阅览起来有必定难度,但关于对苹果AI项目技术细节感兴趣的人来说,肯定值得一读。