12月31日,国内明星大模子创业公司北京智谱华章科技有限公司推出基于彭胀强化学习技能闇练的推理模子GLM-Zero-Previewyqk 勾引,擅所长理数理逻辑、代码和需要深度推理的复杂问题。
GLM-Zero-Preview是GLM-Zero的初代版块。智谱暗示,现在的GLM-Zero-Preview与OpenAI的o3模子仍有不少差距,因此夙昔将捏续优化迭代强化学习技能,推出郑再版GLM-Zero,将深度念念考智商从数理逻辑彭胀到更多更通用的技能。
与现存模子不同,GLM-Zero-Preview未必初步杀青推理进程中自主决议、问题拆解和尝试多种时势贬虚构题。团队发现,跟着强化学习闇练量的增多,模子在深度推理等方面的恶果稳步普及。团队也久了探究了模子在推理阶段的scaling law(行径定律),跟着模子不错念念考的token数变多以及更多的野心量,模子给出的适度质地稳步普及,体现了“自我反念念和优化、复杂问题剖析、尝试用不同法子贬虚构题”等智商,这与东说念主类的念念考决议进程近似。
在7、9、11、13中怎样用3个数字相加获取30,GLM-Zero-Preview识别逻辑破绽。
在逻辑推理方面,GLM-Zero-Preview善于识别逻辑破绽,未必模拟多种假定和可能性。举例在7、9、11、13中怎样用3个数字相加获取30,GLM-Zero-Preview未必识别图中数字,通过反念念发现谜底的关节在于9不错极度为6(6+11+13=30)。
在数学方面,GLM-Zero-Preview具有更强的归纳与演绎智商,未必快速处理复杂的数学运算,解答包括代数、微积分、概率统计等畛域的问题。以2025年考研数学一为例,GLM-Zero-Preview得分为126(总分150),达到优秀沟通生水平。GLM-Zero-Preview未必提供细心的解题进程,匡助用户清爽问题的中枢念念路。
GLM-Zero-Preview未必熟练使用多种编程说话yqk 勾引,匡助诱骗者快速编写代码。在代码调试方面未必快速识别无理,给出细心造就提议。举例只需要输入提醒“帮我用html写一个真义的第一东说念主称射击游戏”,GLM-Zero-Preview便能速即孤立完成游戏。