谷歌gemini是什么,这个是谷歌推出的大模型的AI,功能是很强大的,目前是有分为Ultra、Pro、Nano三个版本,下面就来介绍下谷歌gemini大模型什么时候发布。
谷歌gemini大模型介绍
当地时间12月6日,谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU
v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速度明显快于v4
TPU。值得一提的是在MMLU(大规模多任务语言理解)测试中,gemini Ultra以90.0%的高分,首次超过了人类专家。
gemini的各种能力
据界面新闻12月7日报道,gemini
1.0是谷歌筹备了一年之久的GPT4真正竞品,也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型,包括三种不同套件,分别是gemini
其中Ultra的能力最强,复杂度最高,能够处理最为困难的多模态任务;Pro能力稍弱,是一个可扩展至多任务的模型;Nano则是一款可以在手机端侧运行的模型。这说明,gemini的触达范围很广,可以下探至数据中心,也可以上行至移动设备端侧。
gemini模型经过海量数据训练,可以很好识别和理解文本、图像、音频等内容,并可以回答复杂主题相关的问题。所以,非常擅长解释数学和物理等复杂学科的推理任务。
gemini可以生成和理解Python、Java、C++和Go等主流代码。gemini
Ultra在多个编码基准测试中表现出色,包括HumanEval,这是评估编码任务性能的重要行业标准。
谷歌还基于gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比,AlphaCode 2的性能提升了至少50%以上。
gemini的多模态功能,使其能在视觉理解、文本生成等方面有非常强的功能。例如,从数十万字的小说中整理出重要观点,从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。
在一段公布的演示视频中,桑达尔・皮查伊展示了gemini对视频、图像的非同凡响的识别能力。在视频中,gemini极为自如地在图像、音频、视频各模态之间的转换,展现了惊人的解锁应用场景与产品形态的潜力。
仅从谷歌释出的演示视频结果看,市面上现有的全部多模态大模型与gemini的性能表现都有代际差,包括Meta
5月开源的跨6个模态的AI模型ImageBind以及GPT-4。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。