新德里,12月6日:周三,谷歌推出了Gemini,为生成式人工智能竞赛注入了活力,这是其最强大、最通用的模型,在许多领先的基准测试中具有最先进的性能,共有三次迭代。第一个版本是Gemini 1.0,针对不同的尺寸进行了优化:Ultra、Pro和Nano。
谷歌的人工智能聊天机器人巴德(Bard)将使用经过微调的Gemini Pro来进行更高级的推理、规划、理解等。谷歌表示,它将在170多个国家和地区提供英语版本,“我们计划在不久的将来扩展到不同的模式,并支持新的语言和地点。”
该公司还为Pixel 8 Pro带来了Gemini,为Recorder应用程序中的摘要(summary)等新功能提供了支持,并在Gboard上推出了智能回复(Smart Reply)功能,从WhatsApp开始,明年将推出更多即时通讯应用程序。在接下来的几个月里,Gemini将在更多的谷歌产品和服务中使用,比如搜索、广告、Chrome和Duet AI。
“这些是双子座时代的第一批模型,也是我们今年早些时候成立谷歌深度思维时的第一次实现,”Alphabet和谷歌首席执行官桑达尔·皮查伊说。Gemini是谷歌各个团队(包括谷歌研究院的同事)大规模合作的结果。
谷歌DeepMind首席执行官兼联合创始人戴米斯?哈萨比斯表示:“它从一开始就是多模式的,这意味着它可以概括、无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。”
Gemini Ultra是用于高度复杂任务的最大和最强大的模型,而Gemini Pro是用于扩展各种任务的模型,而Gemini Nano则用于设备上的任务。
谷歌表示:“Gemini Ultra的得分为90%,是第一个在MMLU(大规模多任务语言理解)上超过人类专家的模型。MMLU使用数学、物理、历史、法律、医学和伦理学等57门学科的组合来测试世界知识和解决问题的能力。”
从自然图像、音频和视频理解到数学推理,Gemini Ultra的性能超过了大型语言模型(LLM)研究和开发中32个广泛使用的学术基准中的30个。
谷歌表示,Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。该公司表示:“我们的第一个版本的Gemini可以理解、解释并生成世界上最流行的编程语言的高质量代码,比如Python、Java、c++和Go。”
双子座也可以用作更先进的编码系统的引擎。该公司使用谷歌内部设计的张量处理单元(tpu) v4和v5e,在其人工智能优化的基础设施上大规模训练Gemini 1.0。
谷歌表示:“今天,我们宣布了迄今为止最强大、最高效、可扩展的TPU系统——Cloud TPU v5p,专为训练尖端的人工智能模型而设计。”
电话咨询