18+动漫Position

你的位置:乱伦强暴 > 18+动漫 > 婷儿 户外 开源Llama版o1来了,3B小模子反超80B,逆向工程复现OpenAI新Scaling Law

婷儿 户外 开源Llama版o1来了,3B小模子反超80B,逆向工程复现OpenAI新Scaling Law

发布日期:2024-12-18 13:29    点击次数:111

婷儿 户外 开源Llama版o1来了,3B小模子反超80B,逆向工程复现OpenAI新Scaling Law

o1 完满版公开仅 10 天婷儿 户外,Scaling Law 新范式就被逆向工程复现了!

Hugging Face 官方发文,开源了彭胀测试时算计的设施。

用在小小小模子 Llama 1B 上,数学分数径直出奇 8 倍大的模子,也出奇了算计机科学博士生的平平分数(40%)。

那么用在 Llama 3B 上呢?越过幅度更大,以致能和 20 几倍大的 70B 模子比好意思。

诚然 OpenAI o1 的配方实足守密,莫得发布杀青细节或代码,但团队基于 DeepMind 公布的讨论效劳,完成了我方的实验。

在 DeepMind 讨论的基础上,Hugging Face 团队作念出如下翻新:

各样化考证器树搜索(Diverse Verifier Tree Search),一种粗浅而有用的设施,不错擢升各样性和更高性能,终点是在算力预算富余的情况下。

开源轻量级器具包 Search and Learn,与推理框架 vLLM 相助,快速构建搜索计谋

测试时算计彭胀计谋

当今彭胀测试时算计主要有两种计谋:自我优化和搜索。

在自我优化中,模子识别和阅兵后续迭代中的空幻来迭代优化我方的输出或"思法"。

团队觉得诚然此计谋对某些任务有用,但经常条目模子具有内置的自我优化机制,这可能会为止其适用性。

搜索设施侧重于生成多个候选谜底并使用考证器选拔最好谜底。

搜索计谋更活泼,不错顺应问题的难度。Hugging Face 的讨论主要聚焦于搜索设施,因为实用且可彭胀。

其中考证器不错是任何东西,从硬编码到可学习的奖励模子,这里将重心先容可学习的考证器。

具体来说,讨论触及三种搜索计谋:

Best-of-N

为每个问题生成多个反馈,并使用奖励模子为每个候选谜底分派分数。选拔分数最高的谜底(或加权变体),这种设施强调谜底质料而不是频率。

Beam search

一种探索不休决策空间的系统搜索设施,经常与过程奖励模子 (PRM) 相和谐,以优化不休问题中中间要领的采样和评估。与在最终谜底上产生单个分数的传统奖励模子不同,PRM 提供一系列分数,推理过程的每个要领分派一个分数。这种提供精细反馈的才气使 PRM 极端适应大模子。

各样化的考证器树搜索 ( DVTS )

新斥地的 Beam search 变体,它将运行 Beam 拆分为寥寂的子树,然后使用 PRM 作念贪心彭胀。这种设施不错擢升不休决策的各样性和全体性能,尤其是在测试时算力预算较大的情况下。

实验缔造:3 种搜索计谋 PK

领先将数常识题提供给大模子,生成 N 个中间要领。

每个要领王人由 PRM 评分,想到每个要领最终能得出正确谜底的概率。

给定的搜索计谋使用这些要领和 PRM 分数,来选拔应该进一步探索哪些标的,生成下一轮中间要领。

搜索计谋隔断后,PRM 将对最终候选不休决策进行排行,以生成最终谜底。

为了比较各式搜索计谋,讨论中使用了以下灵通模子和数据集:

讲话模子,Llama-3.2-1B-Instruct算作主要实验对象,因为轻量级模子不错快速迭代,况且在数学基准测试中性能不饱和

经过奖励模子,使用了Llama3.1-8B-PRM-Deepseek-Data,与讲话模子同属一个系列,且在测试中给出了更好的效劳。

数据集,使用 MATH 基准测试的子集MATH-500,该子集由 OpenAI 发布,数常识题横跨 7 个科目,对东谈主类和大大王人模子来说王人有挑战性。

实验效劳:动态分派计谋达到最优

领先,大王人投票计谋比贪心解码基线有权贵翻新,收益在约莫 N=64 后趋于庄重。

团队觉得,之是以出现这种为止,是因为大王人投票难以不休需要抽象入微推理的问题,梗概不休几个谜底错到一块去的任务。

奖励模子加入后的计谋,进展均有擢升。

Best-of-N计谋分为两种变体,原版(Vanilla)不探究谜底之间的一致性,加权版(Weighted)汇总通盘用率疏浚的谜底,并选拔总分数最高的。

效劳发现加权版恒久优于原版,终点是在算力预算大的期间更昭彰,因为确保了频率较低但质料较高的谜底也能获选。

Beam Search计谋终于让 1B 模子进展脱手高于 8B。

但 Beam Search 并不是万金油设施,在粗浅的问题上进展反而不如 Best-of-N。

团队通过稽查效劳树,发现淌若一个中间要领获取了高分,那么通盘这个词树就会坍弛到这一步,影响了后续谜底的各样性。

最终,DVTS设施翻新了谜底的各样性,该设施与 Beam Search 比较有以下不同之处:

关于给定的 Beam 宽度(M)和生成数目 N,运行 Beam 集设定为 N/M 个寥寂子树

关于每个子树,选拔 PRM 分数最高的要领

生成 M 个新的下一步,无间选拔分数最高的

重迭这个过程,直到生成 EOS token 后隔断,或达到最大深度

在对问题难度细分后,发现 DVTS 设施在 N 比较大时增强了对粗浅 / 中等难度问题的性能。

而 Beam Search 在 N 比较小时仍然进展最好。

最终基于问题难度动态分派计谋的设施不错取得最好收货。

终末团队建议,畴前这项期间还有更多值得探索的场所:

更雄壮的考证器,擢升其稳健性和泛化才气至关伏击。

最终规划是杀青自我考证,当今在履行中仍然难以杀青,需要更抽象的计谋。

开心五月

在生成过程中加入明确的中间要领或 "思法" ,通过将结构化推理整合到搜索过程中,不错在复杂任务中获取更好的性能。

搜索设施不错用于合成数据,创建高质料的考研数据集

灵通的经过奖励模子当今数目较少,是开源社区不错作念出要害孝敬的范畴

当今的设施在数学和代码等范畴进展出色,这些问题本色上是可考证的,若何将这些期间彭胀到结构性较差或评判标准主不雅的任务,还是一个要害挑战。

辩驳区有网友暗示,这种设施更适应腹地部署,而不是 API 调用,因为调用 256 次 3B 模子和过程奖励模子,经常会比调用一次 70B 模子更贵。

也有东谈主建议在 Qwen 系列模子上尝试,以及指路天工 Skywork 发布了两个基于 Qwen 的 PRM 模子

开源代码:

https://github.com/huggingface/search-and-learn

参考通顺:

[ 1 ] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

[ 2 ] https://x.com/_lewtun/status/1868703456602865880

—  完  —

点这里� � 存眷我,铭记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相逢 ~  



Powered by 乱伦强暴 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024

TOP