苹果正在研究名为“Ferret UI”的人工智能模型

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作

苹果正在研究名为“Ferret UI”的人工智能模型2.jpg

苹果公司的研究团队最新发表了一篇论文,介绍了他们研发的一种叫做"Ferret UI"的大型语言模型。这种模型具备了理解和导航智能手机用户界面的能力,可以突破传统计算机视觉模型的局限性。

一般的视觉AI模型只能识别自然图像的内容,但对于手机屏幕上的各种图标、菜单、按钮等UI元素无法很好理解。而Ferret UI则通过整合了多模态语言的大型模型,能够精准地理解各种UI界面的含义。

根据论文描述,Ferret UI不仅能够识别和分类手机屏幕上的各种小部件,还能回答类似“提醒事项的图标在哪里"、"怎么打开XX应用"这样与UI操作相关的问题。它可以根据用户的自然语言指令,判断出需要执行什么动作,并导航到对应的界面位置。

苹果正在研究名为“Ferret UI”的人工智能模型3.png

为了训练这种模型,苹果研究人员自己制作了大量的数据集,包括从简单的基础任务,到复杂的多步骤交互过程。他们还利用顶尖的GPT-4模型生成高级的数据,比如对话式的界面描述、功能推断等,以增强Ferret UI的上下文理解能力。

如果这项研究通过了同行评审,未来苹果就可以考虑在系统层面集成Ferret UI的技术,大大提升手机的人工智能交互体验。用户只需组织一句自然语言的指令,手机就能精确地捕捉意图并完成相应操作,无需手动点击和导航了。这对语音助手Siri来说将是重大升级。

总的来说,Ferret UI有望令人机交互变得更智能、更直观、更人性化,最大限度减少用户的认知负担,为苹果在AI领域的发展注入新动力。

论文:https://arxiv.org/pdf/2404.05719.pdf

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速、安全、高效、私密的UI设计团队云协作
立即部署>>
标记狮私有云部署-一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作