3月10日,字节豆包大模子团队官宣开源一项针对MoE架构的要津优化技艺,可将大模子测验结果普及1.7倍,本钱节俭40%。
据悉,该技艺已骨子运用于字节的万卡集群测验,累计匡助节俭了数百万GPU小时测验算力。
入选顶级会议MLSys 2025
据了解,MoE是现时大模子的主流架构,但其在散布式测验中存在多数跨开辟通讯支出,严重制约了大模子测验结果和本钱。以国外主流模子Mixtral-8x7B为例,其测验历程中通讯时辰占比可高达40%。
针对这一贫困,字节在里面研发了COMET计较-通讯重复技艺,通过多项蜕变,大幅压缩了MoE大众通讯空转时辰。
相较DeepSeek近期开源的DualPipe等MoE优化有磋议,COMET不错像插件相同平直接入已有的MoE测验框架,复古业界绝大部分主流大模子,无需对测验框架进行侵入式编削。该责任以5/5/5/4的高分入选大众机器学习系统顶级会议MLSys 2025 ,被觉得“在大规模分娩环境中极具运用后劲”。
COMET与Deepseek研发的DualPipe有磋议还不错聚会使用。在裁减MoE通讯支出上,COMET汲取了计较-通讯会通算子的优化表情,DualPipe则通过排布算子来遮掩通讯,两种有磋议并不冲突,献媚使用或将更大幅度压缩模子测验本钱。
现在,COMET复古多种MoE并行神情,部署活泼、节略。同期,COMET中枢代码已开源,并向开发者提供了一套友好的Python API,磋议兼容Triton等编译生态。
近期国内大模子研发技艺快速取得冲破,有关APP下载量也马上增长。下载量排名成为外界不雅察各家大模子实用智力最平直的窗口。为止发稿,DeepSeek在中国区苹果运用商店免费APP下载排名榜首,第二名是豆包,第三名是腾讯元宝。
最新辟谣
3月10日,寒武纪(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。
有阛阓音书称,字节跨越向寒武纪下单4万颗580芯片,单价2.5万元,总价值共计10亿元。
对此,字节跨越有关郑重东说念主暗示,音书装假。
近期一度大火的Manus也传曾婉拒字节的投资。
据报说念,开发出Manus的中国创业公司——Monica,在2024年年头仍是与字节进行过一轮收购谈判。那时字节出价3000万好意思元,但因为远远够不上创举东说念主肖弘的脸色价位,此次谈判最终不欢而散。
接近Monica里面的从业者暗示,字节收购的逻辑所以3000万好意思金的价钱收购团队,将其团队和居品整合到豆包体系中,可是Monica干预字节后就会跟字节大模子政策绑定,就丧失了Monica居品上的特有上风。这亦然肖弘过火团队不看好这场收购的主要原因。现在Monica估值接近1亿好意思元。
对此,为止现在,字节跨越并未给以修起。
传抖音将接入豆包大模子
近期有音书称,抖音App正在测试接入豆包App的AI智力,为用户带来愈加丰富多元的智能体验。
在测试版块中,抖音为豆包App怒放了两个超等进口:一个置于短视频界面,与点赞、批驳、转发等功能并排;另一个则放在抖音的音书列表内,使AI技艺与外交功能深度会通,进一步强化了用户互动体验。
此前,豆包App固然具备对话、创作及图像生成等功能,但用户需要离开抖音App才能使用,这在一定进程上,也规矩了豆包大模子的使用频率。
而通过将豆包平直镶嵌抖音的两个蹙迫进口,抖音App将平直买通豆包大模子中老练的AI功能,用户无需跳转即可使用AI行状,这不仅能强化抖音自己的AI智力,罢了流量与功能的深度绑定,还能通过抖音庞大的用户基数为豆包导流,鼓舞“AI生态闭环”的成立。
此外,抖音接入豆包还不错蔓延用户在抖音的停留时辰,增多流量和用户粘性,为告白、电商等传统业务提供更大空间。