马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

开源社区有福了。

说到做到,马斯克承诺的开源版大模型 Grok 终于来了!

今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。

这也使得Grok-1成为当前参数量最大的开源大语言模型。

封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,「我们想了解更多 OpenAI 的开放部分」。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1 的模型细节包括如下:

基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;

3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%;

2023 年 10 月,xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获 3.4k 星标,热度还在持续增加。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中, 然后,运行下面代码进行测试:

pip install -r requirements.txt
python run.py

项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

看到这,有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

还有一位推特用户 @itsandrewgao 详细分析了 Grok-1 的架构细节,并做出了一下几点总结。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

首先 Grok-1 是 8 个专家的混合(2个活跃)、860亿激活参数(比Llama-2 70B还多),使用旋转嵌入而非固定位置嵌入。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

tokenizer 词汇大小为 131,072(类似于 GPT-4)2^17,嵌入大小 6,144 (48*128),64 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 token 从 8 个专家中选择 2 个。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

旋转位置嵌入大小为 6144,与输入嵌入大小相同。上下文长度为 8192 tokens,精度为 bf16。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

此外还提供了一些权重的 8bit 量化内容。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

当然,我们还是希望 xAI 官方能够尽快公布 Grok-1 的更多模型细节。

Grok-1 是个什么模型?能力如何?

Grok 是马斯克 xAI 团队去年 11 月推出的一款大型语言模型。在去年 11 月的官宣博客中(参见《马斯克 xAI 公布大模型详细进展,Grok 只训练了 2 个月》), xAI 写道:

Grok 是一款仿照《银河系漫游指南》设计的 AI,可以回答几乎任何问题,更难能可贵的是,它甚至可以建议你问什么问题!

Grok 在回答问题时略带诙谐和叛逆,因此如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此,希望在您的帮助下,它能在测试中迅速改进。

xAI 表示,Grok-1 的研发经历了四个月。在此期间,Grok-1 经历了多次迭代。

在公布了 xAI 创立的消息之后,他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语言模型,在 HumanEval 编码任务中达到了 63.2% 的成绩,在 MMLU 中达到了 73%。

xAI 使用了一些旨在衡量数学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示,这展示了他们在高效训练 LLM 方面取得的快速进展。

不过,xAI 也表示,由于这些基准可以在网上找到,他们不能排除模型无意中在这些数据上进行了训练。因此,他们在收集完数据集之后,根据去年 5 月底(数据截止日期之后)公布的 2023 年匈牙利全国高中数学期末考试题,对他们的模型(以及 Claude-2 和 GPT-4 模型)进行了人工评分。结果,Grok 以 C 级(59%)通过考试,Claude-2 也取得了类似的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。xAI 表示,他们没有为应对这个考试而特别准备或调整模型。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

下面这个表格展示了 Grok-1 的更多信息(来自 2023 年 11 月的博客,部分信息可能存在更新):

模型细节:Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反馈对模型进行了微调。初始的 Grok-1 能够处理 8192 个 token 的上下文长度。模型于 2023 年 11 月发布。

预期用途:Grok-1 将作为 Grok 背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。

局限性:虽然 Grok-1 在信息处理方面表现出色,但让人类检查 Grok-1 的工作以确保准确性至关重要。Grok-1 语言模型不具备独立搜索网络的能力。在 Grok 中部署搜索工具和数据库可以增强模型的能力和真实性。尽管可以访问外部信息源,但模型仍会产生幻觉。

训练数据:Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。

评估:xAI 在一系列推理基准任务和国外数学考试试题中对 Grok-1 进行了评估。他们与早期 alpha 测试者合作,以评估 Grok-1 的一个版本,包括对抗性测试。目前,Grok 已经对一部分早期用户开启了封闭测试访问权限,进一步扩大测试人群。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

在博客中,xAI 还公布了 Grok 的构建工程工作和 xAI 大致的研究方向。其中,长上下文的理解与检索、多模态能力都是未来将会探索的方向之一。

xAI 表示,他们打造 Grok 的愿景是,希望创造一些 AI 工具,帮助人类寻求理解和知识。

具体来说,他们希望达到以下目标:

收集反馈,确保他们打造的 AI 工具能够最大限度地造福全人类。他们认为,设计出对有各种背景和政治观点的人都有用的 AI 工具非常重要。他们还希望在遵守法律的前提下,通过他们的 AI 工具增强用户的能力。Grok 的目标是探索并公开展示这种方法;

增强研究和创新能力:他们希望 Grok 成为所有人的强大研究助手,帮助他们快速获取相关信息、处理数据并提出新想法。

他们的最终目标是让他们的 AI 工具帮助人们寻求理解。

在 X 平台上,Grok-1 的开源已经引发了不少讨论。值得注意的是,技术社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至 OpenAI 的员工也发帖表示对该模型很感兴趣。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

不过,开源版 Grok 目前还有些事情做不到,比如「通过 X 平台实时了解世界」,实现这一功能目前仍需要订阅部署在 X 平台上的付费版本。

鉴于马斯克对开源的积极态度,有些技术人员已经在期待后续版本的开源了。

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

内容链接:https://www.hpaper.cn/17413.html

(0)
上一篇 2024-03-18 上午8:54
下一篇 2024-03-18 上午8:56

相关推荐

  • 阿里京东物流“拆墙”进行时:有商家火速换快递,末端快递员担心收入下降

    本文来源:时代财经 作者:林心林 今年“双十一”,两大电商平台和物流商各自为阵的局面将正式终结。 图片来源:图虫创意 10月16日,京东物流与淘天集团正式达成合作,京东物流将全面接入淘宝天猫平台,平台商家将能够选择京东物流作为服务商,目前双方对接系统已基本完成,消费者也可以在淘宝和天猫APP内查询京东物流轨迹。 这意味着,淘宝与京东这一对电商竞对,将各自过去…

    2024-10-17
    23
  • AI圈顶流捧场!黄仁勋苏姿丰都来了,联想亮AI Now智能体大招,连甩10多个重磅AI产品

    刚刚,联想一场大会,把全球AI圈顶流聚齐了! 黄仁勋苏姿丰接连登场、英特尔AMD史无前例首次合作、英特尔CEO现场掏出下一代CPU、扎克伯格剧透XR新品,还有联想智能体大招AI Now正式登场。 昨晚,AI量大管饱,精彩镜头应接不暇。 智东西西雅图10月15日现场报道,刚刚联想创新科技大会2024正式开幕,联想一口气发布了PC个人AI智能体、搭载英伟达新核弹…

    2024-10-16
    18
  • AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎

    “超越人类智慧的AI可以用语言操纵我们,或许会试图说服我们不要关掉开关。” 今年3月,由ChatGPT掀起的AI(人工智能)技术革命背后的奠基性科学家、被誉为“AI教父”的杰弗里·辛顿(Geoffrey E. Hinton),曾对媒体提及他对AI“反噬人类”的担忧。如今,在他心中“危险和机遇并存”的AI,为他带来了诺贝尔物理学奖的荣誉。 当地时间10月8日,…

    2024-10-15
    1.9K
  • 苹果自动驾驶汽车项目画上句号:加州测试许可被取消

    IT之家 10 月 12 日消息,就在彭博社的马克・古尔曼报道苹果放弃了发布电动汽车的计划六个月后,据 macReports 报道,加州机动车辆管理局(DMV)取消了苹果的自动驾驶车辆测试许可证。 据悉,DMV 于 9 月 25 日收到苹果的确认,同意取消该许可证,该许可证于 9 月 27 日被取消。这意味着苹果公司持续了十年之久的电动汽车项目被彻底终结,没…

    2024-10-12
    1.1K
  • 大UP质问平台为什么视频越来越糊,答案比问题要复杂得多

    文|王毓婵 编辑|乔芊 10月8日,在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频,标题为《清晰度不如4年前!视频变糊是你的错觉吗?》。这条视频揭示了视频平台为降低流量费用支出,通过降低码率和调整编码格式压缩视频画质的现象。 “2024年,4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章,我们也在不断更新设备,提升节目的质量。但我们在平台…

    2024-10-11
    1.5K
  • 特斯拉“命运日”即将到来:Robotaxi能否帮马斯克“翻身”?

    财联社10月10日讯(编辑 刘蕊)不到24小时之后,特斯拉将成为全球瞩目的焦点:特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时,众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。 随着“Robotaxi Day”活动的逐步临近,特斯拉股价也在过去几周持续上涨,几乎抹平了年内跌幅——这也表…

    2024-10-10
    2.8K
  • 又发布两款新车的富士康还没在全新领域找到获胜之道

    致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车,将其乘用车产品阵容扩充至MPV领域。 10月8日,在一年一度的鸿海科技日上,富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间,轴距达到3.2米。在800V电子电气架构的支持下,预计WLTP续航里程约为660公里。 富士康依然与意大利车身制造商宾尼法利…

    2024-10-09
    1.6K
  • 33亿增资,合肥为什么再次“抄底”蔚来?

    作为中国第一家在美国上市的电动车企,蔚来一度面临崩溃的边缘。 2019年年底,蔚来的股价触及1.32美元的低点,市值距离高点蒸发80%以上。 高瓴清空了蔚来股票,红杉也选择了减仓。 当时的李斌四处奔走请客吃饭,想为蔚来寻求融资输血。 一个故事是,一家国资的老总在席间直斥李斌”乱花钱”。 所谓的乱花钱,是指当时的新能源车企几乎都依赖补贴…

    2024-10-08
    46
  • 跨国车企销量都跌了,为何仅欧美“狂”裁员?

    自今年以来,欧美汽车企业掀起了一股裁员浪潮。 福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上,其中大众集团(正在与工会谈判中)和特斯拉更是超过万人规模。 这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

    2024-09-30
    29
  • 7.99万就能提车的Model Y,还顶得住新势力的围攻吗

    9月27日,特斯拉上海超级工厂迎来第100万辆车下线。 从一片泥洼地到变成全球电动汽车巨头最大的海外基地,特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。 而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时,这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛,9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

    2024-09-29
    51
  • 逼退张大奕的退货率,让丰巢一年狂揽9个亿

    9月19日,曾经的“淘宝女装第一人”张大奕用小号发微博称,她将无限期延迟十年老店“吾欢喜的衣橱”的上新,宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本,以及,电商越来越高的退货率。 就在张大奕宣布关店的三周前,丰巢刚刚向港交所提交招股书,寻求以250亿元的估值上市。招股书显示,连亏八年的丰巢终于在2024年前5个月有了7…

    2024-09-27
    981
  • OpenAI高层再震荡:CTO官宣离职,Sora恐长期停滞?| 最前线

    文|袁滢靓 编辑|邓咏仪 北京时间9月26日凌晨3点,OpenAI 首席技术官(CTO)Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照,如今两个离职,一人休假,只剩下Altman一人扮演独角戏了。 △图源:X网友 @brewmarkets OpenAI的腥风血雨体质,也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

    2024-09-26
    50
  • TikTok Shop鏖战美区,内容电商的蛰伏与加速

    TikTok Shop的内容电商,能给全球商家带来新一个增长奇迹吗? 文 | 华商韬略 梁梁 跨境电商正在重新定义全球电商格局。 过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以核心电商平台为节点链接的全球商业网络。 这是一张史无前例的商业大网,它已经而且还在加速改变全球贸易和消费的格局,并且这张网还在不断进化与分化…

    2024-09-25
    1.4K
  • 华为三折叠黄牛价雪崩:从加近十万到仅加四千,黄牛气懵了

    正式发售不到48小时,华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日,很多数码博主在社交平台上发视频称,Mate XT三折叠手机价格雪崩,从加价六七万甚至十几万,暴跌至加价四千、两千。 甚至到了“每小时一个价”、“你要买我肯定有货;但你要卖我打死不收”的地步。 官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

    2024-09-24
    2.2K
  • 马斯克终于“投降”,“我们的主权不容出售!”

    【文/观察者网专栏作者 蒂亚戈·诺加拉,翻译/ 陈佳芮】 在无视巴西最高法院的命令三周之后,马斯克终于“投降”,作出重大让步。 当地时间9月20日,在一份法庭文件中,社交平台X(原推特)公司的律师表示,X平台已遵守巴西最高法院的相关命令,希望法院能解除对其X平台在巴西境内的禁令。 有意思的是,在这次“X事件”中,一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

    2024-09-23
    7.5K
  • 李斌的“县县通”,蔚来的新未来

    出品|网易科技《态度》栏目 作者|定西 这个中秋假期,李斌有点忙。 为了推进充电县县通和换电县县通计划的落地,他来到该计划最难的地方之一新疆进行实地考察。 时间紧迫。蔚来计划在2025年6月30日前,完成除台湾地区、香港特别行政区外,全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖,包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

    2024-09-20
    1.3K
  • 小鹏回应MONA M03自动泊车撞上奥迪:不排除光线等因素致弱势场景

    IT之家 9 月 18 日消息,近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故,引起了IT之家网友的关注。据每日经济新闻今天下午报道,小鹏汽车相关负责人就此事回应称,“公司售后同学已经联系上客户,在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因,该负责人表示,目前不排除因光线及其他因素导致的弱势场景,具体原因还要结合具体的数据进行分析。…

    2024-09-18
    3.6K
  • 华为三折叠,炸出570万「黄牛」

    「核心提示」人人争当黄牛背后,是三折叠手机备受追捧。沉积的手机市场,太需要这样的“王炸”来唤醒了。 作者 | 陈法善 编辑 | 刘杨 备货量100万台,发布四天就有近570万人预约,华为三折叠手机Mate XT注定是今年最难抢的手机。 要知道,根据IDC的统计,2023年中国折叠屏手机总出货量约700.7万台。也就是说,华为这一个单品,就…

    2024-09-14
    1.1K
  • 比亚迪员工总数突破 90 万,技术研发人员近 11 万全球车企第一

    IT之家 9 月 13 日消息,比亚迪集团品牌及公关处总经理李云飞今日在微博上透露,今天,比亚迪员工总数突破 90 万,是 5300 多家 A 股上市公司里员工人数最多的,比第二名还要多 40 多万人。 李云飞还表示:“比亚迪 90 万员工中,技术研发人员近 11 万,是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生,持续助力大学生就业。…

    2024-09-13
    547
  • 从Vertu到8848,奢侈品手机为何全军覆没

    华为三折叠终于发布了,19999元起售。 主要噱头是比折叠还多一折,但也引起了互联网的广泛争论。 在争论之中,黄牛早已率先抢购。 据网上消息,黄牛把三折叠已经炒到了一台65万。 一台38万,有人为了提升销量,黄牛给出的利好是全国可飞。 大家都知道这个溢价不可持续。可大家的疑惑点在于,华为三折叠的受众是谁? 为何有种魔幻的吸引力? 如果堆科技参数。 我可以告诉…

    2024-09-12
    802