马斯克用行动反击,开源自家顶级大模型!压力给到 OpenAI

25天前 2024-03-18来源:科创板日报评论 0 收藏 0阅读模式

  ① Grok-1 为当前参数量最大的开源大语言模型,拥有 3140 亿参数; ②它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途; ③由于 Grok-1 是一个规模较大的模型,测试人员需要足够的硬件配置。

  《科创板日报》3 月 18 日讯(编辑 宋子乔)似乎是为了表明自己始终坚持对 AI 模型开源,马斯克做出了与阿尔特曼全然不同的选择。3 月 17 日,马斯克宣布开源 Grok-1,这使得 Grok-1 成为当前参数量最大的开源大语言模型,拥有 3140 亿参数,远超 OpenAI GPT-3.5 的 1750 亿。

  有意思的是,Grok-1 宣布开源的封面图为 Midjourney 生成,可谓 "AI helps AI"。

  一直吐槽 OpenAI 不 open 的马斯克,自然要在社交平台上含沙射影一番," 我们想了解更多 OpenAI 的开放部分。"

  Grok-1 遵照 Apache 2.0 协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今,已经在 GitHub 上揽获 6.5k 星标,热度还在持续增加。

  项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,需要有足够 GPU 内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有 628 GB GPU 内存的机器。

  此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

  目前已开源的热门大模型包括 Meta 的 Llama2、法国的 Mistral 等。通常来说,发布开源模型有助于社区展开大规模的测试和反馈,意味着模型本身的迭代速度也能加快。

  Grok-1 是一个混合专家(Mixture-of-Experts,MOE)大模型,由马斯克旗下的 AI 创企 xAI 在过去 4 个月里开发。回顾该模型的开发历程:

  在宣布成立 xAI 之后,相关研究人员首先训练了一个 330 亿参数的原型语言模型(Grok-0),这个模型在标准语言模型测试基准上接近 LLaMA2(70B)的能力,但使用了更少的训练资源;

  之后,研究人员对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1 并于 2023 年 11 月发布,这是一款功能更为强大的 SOTA 语言模型,在 HumanEval 编码任务中达到了 63.2% 的成绩,在 MMLU 中达到了 73%,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。

  与其他大模型相比,Grok-1 的优势在哪呢?

  xAI 特别强调,Grok-1 是他们自己从头训练的大模型,即从 2023 年 10 月开始使用自定义训练堆栈在 JAX 和 Rust 上训练,没有针对特定任务(如对话)进行微调;

  Grok-1 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界,这使得它能够回答被大多数其他 AI 系统拒绝的辛辣问题。Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据;

  3140 亿参数的 Mixture-of-Experts 模型,其对于每个 token,活跃权重比例为 25%,这一庞大的参数量为其提供了强大的语言理解和生成能力。

  xAI 此前介绍,Grok-1 将作为 Grok 背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。未来,长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。