• 萝莉调教

范冰冰 女同 UC伯克利:让推理模子少想考,准确率反而更高了!

发布日期:2025-04-18 09:11    点击次数:73

色狼窝 让推理模子不要想考范冰冰 女同,得到的完毕反而更准确? UC 伯克利新运筹帷幄发现,强制要求模子跳过想考历程,推理才调却比闲居想考还好。 举例在定理证明任务当中,"不想考"模式仅使用 30% 的 Token,就能完毕和完整想考相同的准确率。 迥殊是施加 Token 放弃之后,"不想考"模式的成果变得愈加明显。 这究竟是何如一趟事呢?来看下 UC 伯克利发表的论文。 跳过想考,推理模子反而更强了 论文的运筹帷幄缠绵,是比拟显式想考历程(Thinking)和跳过想考历程(NoThinkin

  • 范冰冰 女同 UC伯克利:让推理模子少想考,准确率反而更高了!

    色狼窝

    让推理模子不要想考范冰冰 女同,得到的完毕反而更准确?

    UC 伯克利新运筹帷幄发现,强制要求模子跳过想考历程,推理才调却比闲居想考还好。

    举例在定理证明任务当中,"不想考"模式仅使用 30% 的 Token,就能完毕和完整想考相同的准确率。

    迥殊是施加 Token 放弃之后,"不想考"模式的成果变得愈加明显。

    这究竟是何如一趟事呢?来看下 UC 伯克利发表的论文。

    跳过想考,推理模子反而更强了

    论文的运筹帷幄缠绵,是比拟显式想考历程(Thinking)和跳过想考历程(NoThinking)的成果互异,并在不同敛迹条目下评估这两种才能的发达。

    运筹帷幄使用 DeepSeek-R1-Distill-Qwen-32B 手脚主要施行模子,该模子通过在 Qwen-32B 基础上使用 DeepSeek-R1 生成的数据进行蒸馏得到。

    为了确保完毕的可靠性,运筹帷幄同期遴荐了 Qwen-32B-Instruct 手脚基线模子,并在 7B 和 14B 限制的换取架构模子上进行了考证施行。

    在数据集的遴荐上,运筹帷幄悉力全面隐敝不同类型的推理任务:

    在数常识题方面,既包含了 AIME 2024、AIME 2025、AMC 2023 等法式难度的测试集,也包含了更具挑战性的 OlympiadBench 数学子集;

    在编程才调评估方面,使用了捏续更新的 LiveCodeBench v2 版块;

    在定理证明畛域,则通过 MiniF2F 测试神志化数学推理才调,通过 ProofNet 评估逻辑和定理证明才调。

    施行领先进行了基础性能评估,也等于在不放弃 token 的情况下比拟三种才能的发达。运筹帷幄团队详备纪录了每种才能在不同 k 值下的 pass@k 性能发达和 token 使用量。

    完毕裸露,在无预算放弃的情况下,NoThinking 在定理证明任务上大概以 30% 的 token 用量达到与 Thinking 相似的性能,两种才能齐明显优于基线模子。

    在其他任务上,固然 NoThinking 的驱动 pass@1 性能较低,但跟着 k 值增多会逐渐追平 Thinking 的发达,同期 token 使用量减少

    随后,施行引入了预算强制,通过建造 token 放弃来进行对照施行。

    具体来说,当模子达到预设的 token 预算时,系统会强制其生成最终谜底范冰冰 女同,要是此时模子仍在想考框内,则会在最终谜底标签前添加完毕想考象征。

    运筹帷幄辩别在低预算(约 3000tokens 以下)和高预算(约 3500tokens)两种场景下进行了详备测试。

    在预算受限的场景下,NoThinking 在低预算情况下(

    在高预算场景下(~3500 tokens),尽管 Thinking 在 pass@1 上略有上风,NoThinking 从 k=2 脱手就展现出更好的性能。

    在并行彭胀测试中,运筹帷幄凭证任务特质摄取了不同的评估才能。

    关于有完满考证器的任务(如神志定理证明),不错平直使用考证器遴荐最好谜底,并详备纪录延长和 token 使用量;

    关于莫得考证器的任务,运筹帷幄完毕了精深投票机制和基于置信度的遴荐政策,通过施行比拟了不同遴荐政策的成果。

    关于具有考证器的任务,NoThinking 不错在将延长缩短至 1/7、token 使用量减少至 1/4 的同期,保捏与传统才能相似的准确率。

    在莫得考证器的任务中,比如 AMC 2023 和 OlympiadBench,NoThinking 以至特出了完整版 Thinking 的发达,同期可将延长缩短至 1/9。

    为了幸免施行完毕受到数据期侮的影响,运筹帷幄团队特意使用了新发布的 AIME 2025 数据集进行考证。

    完毕作家发现。换取的性能模式在新旧数据集上齐能褂讪重现,这阐述了运筹帷幄发现响应了模子的真扩充为特征。

    大模子"想考历程"引热议

    Hacker News 上,有东谈主默示这项运筹帷幄让其对大模子的想考有了新的意志:

    昔日我以为大模子"想考"很有用,是因为它不错把更多的倡导带到崎岖文当中,但当前看似乎不是?

    还有东谈主料想了 Claude 厂商 Anthropic 前些天发表的敷陈,其中指出大模子输出的"想考历程"不一定代表其果然主张。

    这份敷陈的施行发现,Claude 3.7 Sonnet 仅在 25% 的情况下在其想维链中说起收到的领导信息,DeepSeek R1 则为 39%,意味着大精深情况下模子不会诚挚响应其果然有缠绵历程。

    Anthropic 的这份敷陈,引起了针对大模子"想考历程"的强烈照应。

    有东谈主默示,想维链有用的要津是产生了更多用于"想考"的狡计,但要是用它来展示模子责任历程,那只不外是荒谬的崎岖文。

    但也有东谈主以为 Anthropic 的运筹帷幄并莫得切中问题关键,因为模子的考试历程等于为了赢得正确谜底而优化,不可指望这么的考试风物大概让模子准确说出推理历程。

    作家简介

    本论文第一作家是 UC 伯克利博士生马文洁,导师是 Matei Zaharia 副磨真金不怕火和 Sewon Min 助理磨真金不怕火运筹帷幄重心是领略和晋升谈话模子的推理才调,以及测试时狡计。

    马文洁本科毕业于南京大学狡计机学院,技巧曾插足该学院的 PASCAL(编程谈话与统计分析)运筹帷幄组。

    另别称华东谈主作家何静轩,当前在 UC 伯克利从事博士后运筹帷幄,运筹帷幄有趣有趣为机器学习和狡计机安全,融合导师是宋晓冬(Dawn Song)磨真金不怕火。

    何静轩博士和本科辩别毕业于苏黎世联邦理工学院和浙江大学。

    另外,UC 伯克利博士生 Charlie Snell、Tyler Griggs,以及一作马文洁的两名导师也参与了此项运筹帷幄。

    论文地址:

    https://arxiv.org/abs/2504.09858

    参考贯穿:

    [ 1 ] https://www.anthropic.com/research/reasoning-models-dont-say-think

    [ 2 ] https://news.ycombinator.com/item?id=43572374

    一键三连「点赞」「转发」「注意心」

    迎接在指摘区留住你的主张!

    —  完  —

    � � 点亮星标 � �

    科技前沿进展逐日见范冰冰 女同



相关资讯

  • 范冰冰 女同 刚刚 海外油价大跳水

    海外原油价钱在资格前一往翌日刚劲反弹后范冰冰 女同,4月10日再度大幅下挫。 色狼窝 Wind数据涌现,约束北京时辰21:28,WTI原油期货价钱最低至59.82好意思元/桶,跌超4%,最新报60.07好意思元/桶;布伦特原油期货价钱最新报63.19好意思元/桶,跌超3%,日内最低涉及63好意思元/桶。 山东都盛期货原油商榷员高健暗意,当今关税策略远景仍有不...