技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

开源语言模板RED PYJAMA现已可供下载和查看

时间：2023-06-26分类：热搜头条作者：编程之家AI导航网

RedPajama是一个旨在为人工智能领域创建一套开源模型的项目。今天他们宣布完成了这个项目的第一步：复制超过 1.2 万亿个数据点的LLaMA 训练数据集。

人工智能的兴起

人工智能正在迎来它的 Linux 时刻。Stable Diffusion表明，开源不仅可以与DALL-E 等商业产品的质量相媲美，还可以从全球用户的广泛参与中带来令人难以置信的创造力。

随着最近发布的半开放模型(例如 LLaMA、Alpaca、Vicuña 和 Koala)，围绕大型语言模型开始了类似的运动;以及完全开放的模型，如 Pythia、OpenChatKit、Open Assistant和 Dolly。

RedPajama 刚刚上线，致力于产生一个完全开放和可复制的语言模型。RedPajama 是 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 之间的合作。RedPajama 具有三个关键组件：

预训练数据，既要高质量又要覆盖面广

基础模型，使用这些数据进行大规模训练

通过指令进行模型和数据拟合，改进基础模型使其可用和安全

起点是 LLaMA，它是领先的开放基础模型集，原因有二：首先，LLaMA 是在一个非常大的数据集(1.2 万亿数据点)上训练的，该数据集针对质量问题进行了仔细过滤。

其次， 70 亿参数的LLaMA 模型的训练时间更长，超出了 Chincilla 最佳点，以确保该模型大小的最佳质量。70 亿参数模型对社区特别有价值，因为它可以在各种GPU上运行，包括许多消费级 GPU。

红色睡衣数据集

构成 RedPajama 的数据和一个较小的、可消耗的随机样本可以通过Hugging Face下载。完整数据集在磁盘上未压缩为 5TB，压缩后为 3TB 可下载。RedPajama-Data-1T 包含七个信息源：

CommonCrawl：五个 CommonCrawl 转储，使用 CCNet 管道处理并通过各种质量过滤器进行过滤，包括选择类似维基百科页面的线性分类器。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：Fluent Emoji Gallery应用现已推出下一篇：漫威的新健身应用程序将让你和你最

相关推荐

全球最强笔记本芯片苹果M4 Max登场：CPU比英特尔酷睿Ultra 7 258V快2.5倍、GPU快4倍

IT之家 10 月 31 日消息，苹果公司面向数据科学家、3D 艺术家、作曲家等时常面对极繁重任务的专业人士，重磅推出了 M4 Max 芯片，最多配备 16 核 CPU 和 40 核 GPU。

作者：IT之家时间：2024-10-31

李一舟复出主攻视频号：开通会员专区，专注1V1咨询

鞭牛士 10月30日消息，被戏称为“中国AI教父”的网络红人李一舟在复出后或在主攻视频号。

作者：鞭牛士Bianews 时间：2024-10-31

扎克伯格押注AI：Meta正推动美国政府使用其Llama模型

IT之家 10 月 31 日消息，Meta 首席执行官马克・扎克伯格在第三季度财报电话会议上表示，Meta 正在“与公共部门合作，推动 Llama AI 模型在整个美国政府机构中得到应用”。

作者：IT之家时间：2024-10-31

OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”

IT之家 10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

作者：IT之家时间：2024-10-31

OpenAI 计划自研 AI 芯片，以减少对英伟达的依赖

据路透社报道，OpenAI 正在与博通（Broadcom）合作开发其首款定制 AI 推理芯片，旨在处理其大规模的 AI 工作负载，特别是推理任务。

作者：叫我测评君时间：2024-10-31

OpenAI ChatGPT高级语音模式已登陆Windows和Mac平台，对话更自然

IT之家 10 月 31 日消息，OpenAI 今日宣布，ChatGPT 的高级语音模式（Advanced Voice Mode，简称 AVM）现已登陆 Windows 和 Mac 平台。

作者：IT之家时间：2024-10-31

官方回应小米 15 手机屏幕混用传言/苹果 M4 系列 MacBook Pro 发布/曝 OpenAI 首款自研芯片2026推出

曝 OpenAI 将与博通台积电合作打造首款芯片苹果全新 MacBook Pro 发布，M4 Max 芯片登场微软调低 AI 云服务收入预期 Google 四分之一....

作者：爱范儿时间：2024-10-31

Parallels Desktop 新版可让 Win10/Win11 应用使用苹果牌 AI

IT之家 10 月 31 日消息，主流虚拟机应用 Parallels Desktop 升级至最新版本（version 20.1）后，为 Mac 用户解锁了一项新功能，可以在 Windows 10、Windows 11 应用中，调用 Apple Intelligence 功能。用户在已启用 Apple Intelligence 的 Mac 设备上，升级安装最新版 Parallels Desktop 应用之后，可以在 Windows 应用中...

作者：IT之家时间：2024-10-31

OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”

IT之家 10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻...

作者：IT之家时间：2024-10-31

任天堂音乐App上线，为Switch Online会员提供众多经典游戏原声

IT之家 10 月 31 日消息，任天堂今日推出了专为 Switch Online 会员打造的移动应用“Nintendo Music”，该应用允许用户免费在线播放和下载来自任天堂丰富游戏库中的各种音乐曲目。这款应用现已登陆 iOS 和 Android 平台，包含了从经典复古到最新发行的各种任天堂游戏音乐。用户还可以隐藏可能包含游戏剧透的曲目，以及延长...

作者：IT之家时间：2024-10-31

小编推荐

苹果市值2025年有望达4万亿美元