中文|ENG
更多

谷歌发力AI搜索,视觉检索+识别会成主流?AR眼镜也要东山再起?

2022年6月20日

知情郎·眼|

侃透天下专利事儿


今年的谷歌开发者大会(Google I/O 2022)上有什么新玩意、硬科技?


谷歌翻译、谷歌多重AI搜索、掩护性盘算、Android 13、谷歌硬件。


在2小时的主题演讲上,谷歌梳理了自己现有AI盘算的进度,并演示了要害技术应用。并宣布了谷歌手机,还提前曝光了谷歌AR眼镜!


有不少最新技术理念和硬核产品,科技圈媒体已经铺天盖地报道了。


01谷歌的逻辑


一家凯发k8国际技公司总要有句通俗易懂的口号,便当和用户直接交流。


曲高和寡、孤芳自赏装深沉装睿智是行欠亨的。


谷歌CEO桑达尔·皮查伊(Sundar Pichai)很懂这思路,所以他的口号历来简明简明。


这次他的口头禅是:“谷歌的目的,深化用户对信息的理解,让人们无论在哪都能获得知识。”


桑达尔·皮查伊印度平民家庭身世、买不起新书包的穷学生,一路爬到谷歌寡头公司的CEO,皮查伊的乐成充满了励志色彩,激励着世界许多寒门子弟高昂前进。


Google搜索引擎、谷歌Chrome、Chrome OS、舆图、Gmail、Android都是在他的领导下壮大的,人称劈柴哥!


谷歌的工程师文化在他手里被发挥到了极致,一个重要的行事规则是——杀鸡要用牛刀,集重兵狂投入优化产品功效性到极点。


Chrome浏览器就是这个逻辑的经典产品,焦点功效细节比同行强的时候,用户簇拥而至。


工程师文化,就是这点好,拼产品功效功效细节,没有花哨,比不过别人就是比不过别人,没有空话连篇的自我遮羞布。


市场用户最公正,不管竞争是否猛烈,不管条件是否艰苦,不管舞台巨细,不看你演戏演技演给谁看。


就看产品自己实用性说话。


不可,千万别浪费观众时间,各人都不傻,烦了,人家真会扔臭鸡蛋香蕉皮砸人的。


02谷歌翻译、谷歌舆图


在翻译领域,谷歌已经要超神!


谷歌宣布,谷歌翻译增加了对24种新语言的支持,深度神经网络算法功不可没!

或许全世界所有主流语言都能支持翻译了。


在视频领域,YouTube视频已经支持了16种语言的实时翻译。YouTube去年已经可以自动生成章节分段。现在通过语音/视频脚天职析等,让这种分段更准确,数量也会抵达8千万段。


在NLP(自然语言处理)领域,谷歌的AI技术可以对文字段落进行更好的理解、总结,并资助用户快速找到重点信息。


谷歌舆图(Google Maps),进一步完善了舆图数据,谷歌的心气自然是让全世界都能用谷歌舆图,所以这次人家亮相,已经能让非洲等偏远地区使用了。


有一说一,谷歌舆图的细节处理很是优秀。据官方说,已经开始大规模应用3D航拍、AI智能等技术,以此来确保导航、搜索等功效的准确性。


同时,3D绘图和机械学习等+航拍,让陶醉式实景舆图更逼真完整。


会上,谷歌也宣布了关于舆图应用的最新数据:已在全球规模内绘制超16亿座建筑和6000万公里的门路。


03多重维度AI搜索


谷歌焦点产品是搜索引擎。


2022这产品又添加了什么黑科技功效?


在之前,搜索是类似盘问的方法,你输入文字,它给出一堆相应结果。


现在,用户的要求多了,也庞大了。


例如用户会上传一张图片、一段小视频,甚至一段鸟叫声,问图片里、视频里的是什么鸟类?


这种问题不再是文字,而是图片、视频影音、文字的多维度结合。


这就是最新的技术“图像检索+识别”,比古板文字检索识别更难更庞大。


这属于多重搜索,也是谷歌这些年发力的重点。


简单的说,“多重搜索”利用AI多模型理解,去理解人们的搜索意图,并用直观的方法体现。


一个实例来说,在巧克力店去寻找“不含坚果黑巧克力”,用户要做的是接纳手机镜头去扫描货架,找到指定的产品。



镜头去识别物体-加入筛选条件-泛起出结果。


这是图像识别+筛选结果的历程,仍旧是一种搜索,但已经跟之前的搜索引擎体验完全差别。



整个视频检索体验与以往理解古板文字框搜索很纷歧样。


知情郎对这搜索应用技术叹为观止。


在德高行全球专利数据库中,以图像检索+识别为要害词,在谷歌全球专利里检索了相关专利,以数量看,中国专利60件,包括发明果真32件、发明授权28件;美国专利205件,包括发明果真83件、发明授权122件


下表为9件为谷歌近期果真图像检索+识别领域的专利。


image.png

image.png

image.png

image.png


这些专利含金量都很是大,谷歌的目标是“用任何方法在任何地方进行搜索”,所以研究多维搜索,尤其是通过手机自带的摄像头视频拍摄识别这种模式,或许率会成为主流搜索应用之一。



04谷歌AI语音助手Google Assistant


手机带AI语音助手,已经成了行业老例。


海内比较成熟的就是百度语音助手小度,能资助用户处理一些简单的操作指令。


谷歌的AI语音助手则是Google Assistant,谷歌称,在AI对话能力技术领域,全球每天有7亿人都在使用Google Assistant。


在开发者大会上,谷歌宣布了“Look and Talk”功效,用户不再必须通过“Hi Google”叫醒设备。用户可以通过注视并直接讲话与语音助手进行交流。


你只需要看着设备屏幕上的前置摄像头,并说出需求,语音助手就会进行应答。


另外,用户可以直接通过一些快捷短语控制语音助手,进行一些事项的处理,好比上个闹钟、关个灯。


谷歌的焦点目的,就是让用户可以与语音助手交互的更自然。


值得一提的是,在开放式对话处理方面,谷歌进一步优化了神经网络模型,语音助手甚至可以对非连续的对话进行理解。


好比用户说话的时候纵然磕巴、语句断断续续,语音助手照旧可以听懂用户的意思。

▲AI会去掉语句中的“停顿”和“卡壳”


去年谷歌宣布了生针言言模型LaMDA,谷歌今年将其迭代为LaMDA 2,并向一些谷歌员工开放测试。


LaMDA甚至学会了“想象”,好比当用户说,“想象世界上最深的海是什么样子”,LaMDA会找到马里亚纳海沟。


别的,用户还可以与LaMDA围绕某一话题展开讨论,LaMDA会一直围绕这一话题进行回覆。


好比讨论关于“狗”的话题,LaMDA的回覆都会围绕狗来展开。


谷歌在宣布会上也提到了近期宣布的PaLM大模型,该模型包括5400亿参数,它可以解答数学问题,甚至可以解释一个笑话。


PaLM可以用没有训练过的语言回覆用户提出的问题,突破语言的界限。


谷歌在大会上宣布,他们将为谷歌云客户提供全球最大的开放机械学习中心,该数据中拥有9 exaFLOPS的算力。


另外,Android 13今年宣布。


05谷歌手机


各人比较的体贴也是这个。


首先是谷歌Pixel 6a,它是旗舰Pixel 6的“青春版”,依旧是谷歌自研芯片Tensor ,也依旧支持5G,另有Android 13系统。


外观设计类似,但看起来没那么高端(应该是塑料材质),背后是1200万像素的双镜头系统,价格更低了只要449美元起,走的是平民廉价路线。


有一说一,谷歌这思路是挺政治正确的,在中高端市场,苹果在美国的统治力过大,死磕没须要,不如学当年的小米,继续走低价倾销战略,专注低端市场扩销量是真。


这手机7月21日预售,7月28日上市。


这款手机跟之前所有Pixel手机一样,是Android系统和适才讲那一大票AI技术+算法的硬件体现;或者说是谷歌技术的硬件躯壳。


06新款AR眼镜


在开发者大会末尾,公司透露,它正在开发一副新的增强现实智能眼镜,旨在“突破相同障碍”。


外形和普通眼镜类似,减少了佩戴者的突兀感。


功效方面,谷歌AR眼镜可以直接看到翻译在眼前的语言,很是酷。相当于直接给你加字幕解读外文影视剧!


但谷歌没有透露该设备的具体名称,也没有说什么时候会向消费者宣布。


谷歌AR眼镜天天在讲故事,讲了好多年,就是没看见好的应用产品,各人等的黄花菜都凉了。


这行业竞争也猛烈,Meta、苹果、三星、微软等科技巨头都陆续透露正在研究或者即将推出AR眼镜产品。


不过,据媒体报道,谷歌之前收购了Raxium,这是一家专注于开发针对AR/VR/MR设备应用的单片集成式RGB Micro LED微显示器公司,很明显,谷歌收购这家公司也是为了提高AR设备的适用性,看来,这次人家有备而来。


知情郎专门查了下公司专利,在德高行全球专利数据库中,关于google的AR眼镜专利,中国专利43件,包括发明果真21件、发明授权7件、外观设计15件。美国专利124件,包括发明果真60件、发明授权57件、外观设计7件。


看了眼谷歌4月底宣布的最新智能眼镜专利,这专利除了付与眼镜用户古板的所示视图外,还增加了将信息(例如,数字图像)叠加至视场并基于例如光学头戴式显示屏(OHMD)、兼具透明头戴式显示屏(HUD)嵌入式无线眼镜进行AR视图笼罩,总而言之,现代智能眼镜实际上可以是运行独立移动应用程序的可衣着电脑,并能支持用户通过免提、自然语言语音命令以及触屏功效按钮与互联网通信。


外媒的原话是:谷歌正在开发的智能眼镜兼具了AR功效,可泛起融合了真实和虚拟图像的增强现实视图,与谷歌之前推出的智能眼镜相比,显然这款眼镜具有更好的性能,其配置的高质量摄像头模块和3D传感模块将在虚拟图像与现实世界的融合中发挥着要害作用。


至于现实效果,谁用谁知道!没见过制品,啥都不说!



07视觉搜索盘问的智能系统


分享个谷歌AI搜索技术研发方面的最新专利,视频检索+识别是它最新发力点。


image.png


一般而言,本果真涉及一种盘算机实现的视觉搜索系统,可以用于检测 和识别视觉盘问中的工具或与视觉盘问相关的工具,然后提供响应视觉盘问 的更个性化和/或智能的搜索结果(例如,在增强视觉盘问的笼罩中)。


例如, 用户可以提交包括一个或多个图像的视觉盘问。在视觉盘问中或与视觉盘问 相关,种种处理技术(诸如光学字符识别(OCR)技术)可以用于识别文本 (例如,在图像、周围图像中等)和/或种种工具检测技术(例如,机械学习 工具检测模型等)可以用于检测工具(例如,产品、地标、动物、人类等)。


可以识别与检测的文本或工具(或多个)相关的内容,并可以将其作为搜索 结果提供应用户。因此,本果真的方面使得视觉搜索系统能够更智能地处理视觉盘问以提供革新的搜索结果,包括更个性化和/或考虑情境信号的搜索结 果来解释视觉盘问和/或用户搜索意图的隐式特征。


本果真的示例方面响应于视觉盘问提供了更智能的搜索结果。


视觉盘问 可以包括一个或多个图像。例如,在视觉盘问中包括的图像可以是同时捕获 的图像,也可以是先前保存的图像。


在一个示例中,视觉盘问可以包括单个图像。在另一示例中,视觉盘问可以包括来自约莫三秒视频捕获的十个图像 帧。


在又一示例中,视觉盘问可以包括图像的图像库,例如,包括在用户的 照片库中的所有图像。


例如,诸如库可以包括用户最近捕获的动物园动物的 图像、用户不久前捕获的猫的图像(例如,两个月前)以及用户从现有来源 (例如,从网站或屏幕捕获)生存到库中的老虎的图像。这些图像可以代表 用户的一组高亲和力图像,并体现(例如,通过图形)用户可能对类似动物 的事物具有“视觉兴趣”的笼统想法。


任何给定的用户都可能有许多这样的节点集群,每个节点集群代表的是无法很好地被词捕获的兴趣。


凭据一个示例方面,视觉搜索系统可以构建并利用用户中心视觉兴趣图 来提供更个性化的搜索结果。在一个示例使用中,视觉搜索系统可以使用用 户兴趣图来过滤视觉发明通报、通知或其他时机。


因此,在示例性实施例中, 在搜索结果在盘问图像的增强笼罩中泛起为视觉结果通知(例如,在某些情 况下可称为“闪光(gleams)”)的示例性实施例中,基于用户兴趣的搜索结 果的个性化可能特别有利。


更具体地,在一些实现中,视觉搜索系统可以包括或提供增强笼罩用户 界面,用于为搜索结果提供视觉结果通知,作为视觉盘问中包括的图像的覆 盖。


例如,视觉结果通知可以在和与搜索结果相关的图像部分相对应的位置 提供(例如,视觉结果通知可以显示在与对应搜索结果相关的工具的“顶部”)。因此,响应于视觉搜索盘问,可以识别多个候选搜索结果,并且多个候选视 觉结果通知可以划分与多个候选搜索结果相关联。然而,在底层视觉搜索系 统功效强大且规模广泛的情况下,大宗候选视觉结果通知可能可用,使得所有候选视觉结果通知的泛起将导致用户界面杂乱地拥挤或以其他方法不希望 地模糊基础图像。


因此,凭据本果真的一个方面,盘算机视觉搜索系统可以 构建并利用用户中心视觉兴趣图来基于视察的用户视觉兴趣对候选视觉结果 通知进行排名、选择和/或过滤,从而提供更直观和简化的用户体验。


在一些实现中,用户特定兴趣数据(例如,可以使用图体现)可以至少 部分地通太过析用户已往加入的图像随时间聚合。


换言之,盘算系统可以通太过析用户随时间加入的图像来实验理解用户的视觉兴趣。当用户加入图像 时,可以推断图像的某些方面是用户感兴趣的。因此,可以在用户特定兴趣 数据(例如,图)中添加或以其他方法标注包括在此类图像中或与此类图像 相关的项(例如,工具、实体、看法、产品等)。



△文章来源:德高行·知情郎


返回
关于凯发k8国际|联系凯发k8国际|投资者关系 |加入我们

执法声明

接待登岸凯发k8国际官网!

? 凯发k8国际("凯发k8国际")在此特别提醒会见本网站的用户或浏览者认真阅读、充分理解下列条款。您的登岸和使用行为视为您接受下列条款并受其约束,包括凯发k8国际后续对其修改。如您差别意,请停止使用。 

? 更多详细信息,请点击此处进行浏览,谢谢。

以上规则的解释权归凯发k8国际所有,并保存随时对本网站上的内容和规则进行更新和增补的权利,请你随时会见以便获取最新消息。


★  ?2023 凯发k8国际 | 粤ICP备16116213号-6   粤公网安备 44049102496526号   ★

搜索

sitemap网站舆图