李飞飞团队“50美元”复现DeepSeek R1本相:基座为
栏目:专题报道 发布时间:2025-02-07 09:01
本日一则对于人工智能范畴的消息激发普遍存眷。据报道,李飞飞等斯坦福年夜学跟华盛顿年夜学的研讨职员以不到50美元的云盘算用度,胜利练习出了一个名为s1的人工智能推理模子。该模子在数学跟编码才能测试中的表示,据称与OpenAI的O1跟DeepSeek的R1等尖端推理模子并驾齐驱。这一新闻无疑在AI界投下了一颗重磅炸弹,本相毕竟怎样?《科创板日报》记者考察跟采访业内子士后发明,s1模子的练习并非从零开端,而是基于阿里云通义千问(Qwen)模子停止监视微调。这象征着,s1模子的神奇“低本钱”,是树立在已具有强盛才能的开源基本模子之上。▍通义模子的“基座”感化依据李飞飞等人的研讨论文,s1模子的练习仅应用了1000个样本数据。依照业内共鸣,这一数据量在AI练习中堪称微不足道,平日缺乏以练习出一个具有推理才能的模子。青年AI迷信家、上海交通年夜学人工智能学院谢伟迪副教学告知《科创板日报》记者,假如细心研讨斯坦福s1的论文会发明,s1模子的神奇是以通义千问模子为基座停止微调,这1000个样本练习的感化更像是“精益求精”,而非“从零开端”。海内某著名年夜模子公司CEO也向《科创板日报》记者表现:“从论文原文来看,所谓用50美元练习出新的存在推理才能的模子,现实上只是用从谷歌模子中提炼出来的1000个样本,而后对通义千问模子停止监视微调。这种微调的本钱确切很低,但显明是站在既有当先模子的‘肩上’才干做到。”斯坦福s1论文原文也注明模子是以阿里通义千问模子为基本微调谢伟迪指出,海内外另有其余团队也宣称用极低的本钱,练习出了存在推理才能的新模子。但一浏览其论文原文,就会发明它们无一破例都是基于通义模子作为基座停止的。 开展全文 外洋多位人工智能研讨者也指出,不少的“新”模子都是树立通义模子基本上 “以通义千问模子作为基座,确切能够用很少的样本数据就到达发生新的推理模子的后果,但假如换成其余基座模子,新模子才能却不任何的晋升。以是,才能真正神奇的是Qwen模子,而不是s1。 ” 谢伟迪说。 ▍低本钱练习年夜模子有范围,但也是偏向 只管s1模子的低本钱练习在某种水平上展现了AI练习的潜力,但其范围性也不容疏忽。 起首,这种低本钱练习依附于已有的强盛基座模子,如阿里通义千问模子。假如不如许的基座模子,低本钱练习的后果将年夜打扣头。 其次,1000个样本数据的练习量在年夜少数情形下是不敷的,尤其是在须要处置庞杂义务的场景中。 别的,低本钱练习的胜利也激发了对AI模子常识产权跟伦理成绩的探讨。假如越来越多的研讨依附于已有的基座模子停止微调,那么这些基座模子的开辟者能否应当取得响应的报答?怎样确保AI技巧的公正应用跟共享?这些成绩都须要业界进一步探究跟处理。 只管s1模子的低本钱练习激发了争议,但其背地的研讨思绪无疑为AI范畴供给了新的思考偏向。 武汉人工智能学院一位资深研讨职员向《科创板日报》记者表现,怎样在保障模子机能的条件下,下降练习本钱,是AI研讨的一个主要课题。将来,跟着技巧的提高跟算法的优化,或者咱们真的可能看到更多低本钱、高机能的AI模子问世。 起源:科创板日报前往搜狐,检查更多
服务热线
400-123-4567