当晚,徐辰收到张乐阳发来的消息,语音里透著掩饰不住的兴奋,甚至连称呼都变了:
    “徐神!搞定了!彻底收敛了!精度比我们预期的还要高两个百分点!老板刚才看了结果,高兴得差点没把桌子拍碎,直夸我们这次效率高!我跟老板提了一嘴是您帮忙改的算法,老板说改天一定要请您吃饭!”
    紧接著,是一张截图。
    图片上是校级计算中心的任务队列管理界面。
    “我跟中心那边打好招呼了,我们课题组的帐號权限已经给你开通了。这是ssh密钥和ip位址。你直接远程登录就行,不用再跑一趟了。现在四张a100全空著,优先级调到了最高,你隨便造!”
    “谢了,学长。”
    徐辰回了个抱拳的表情。
    这个忙也不算白帮,几个小时前,他还得排队填表看人脸色;现在,他手里握著物理学院国家重点项目的算力通道,享受著vip级別的待遇。
    ……
    徐辰打开终端,输入指令,连接伺服器。
    “来吧,laart,让我看看你的成色。”
    他敲下了那行早已准备好的指令。
    运行!
    ……
    这个阶段是ai的训练阶段,在这个阶段,模型需要通过海量的文本数据,学习语言的语法、词汇之间的关联,以及基础的世界知识。
    风扇的轰鸣声仿佛透过网络传了过来。
    屏幕上,一行行日誌开始飞速滚动。
    epoch 1/100 | loss: 2.4582 | accuracy: 12.4%
    epoch 2/100 | loss: 1.8923 | accuracy: 28.7%...
    起初,loss曲线的下降並不算快,这在徐辰的预料之中。因为laart模型引入了复杂的几何约束,模型在初期需要花费大量时间去“寻找”那些逻辑盒子在向量空间中的正確位置。
    这就像是在玩拼图,刚开始总是最慢的。
    徐辰没有盯著屏幕发呆,他起身给自己泡了杯咖啡,顺便看了会美剧。
    两个小时后。
    当他再次回到屏幕前时,终端里的数据已经发生了翻天覆地的变化。
    epoch 50/100 | loss: 0.1245 | accuracy: 94.2%
    “收敛速度比预想的要快。”
    徐辰眉毛一挑。
    普通的transformer模型在处理逻辑推理任务时,往往需要海量的数据“餵”进去,靠概率去“蒙”出逻辑关係,所以收敛极慢,且很容易过擬合。
    但laart不一样。
    它的“逻辑门控单元”就像是一个严厉的老师,一旦模型试图“瞎矇”,就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条,而不是统计规律。
    “差不多了。”
    徐辰终止了训练,保存了模型权重。
    ……
    接下来,是见证奇蹟的时刻——推理测试。也就是看一下刚刚训练好的ai在实际推理上的成绩怎么样。
    他打开了那个专门用来测试逻辑能力的clutrr数据集,隨机抽取了一道题输入模型。
    context(上下文):“爱丽丝的丈夫是鲍勃。鲍勃的女儿是克莱尔。克莱尔的哥哥是大卫。大卫的儿子是艾瑞克。”
    question(问题):“爱丽丝是艾瑞克的什么人?”
    徐辰按下了回车。
    如果是普通的gpt-3级別的模型,面对这种多跳推理,很容易因为“注意力分散”而答错,可能会回答“阿姨”或者“妈妈”。
    屏幕上光標闪烁了0.1秒。
    回答: grandmother (祖母)
    逻辑路径:爱丽丝->(妻子)->鲍勃->(女儿)->克莱尔->(哥哥)->大卫->(儿子)->艾瑞克.
    “漂亮!”
    徐辰打了个响指。
    不仅仅是答案正確,更重要的是那个逻辑路径。这说明模型不是在“猜”,而是在那个高维的几何空间里,真正地构建出了人物关係图谱,並通过向量运算,一步步推导出了结果!
    ……
    但这只是单例测试,说明不了大问题。真正的考验,是全量数据集的泛化能力测试。
    他首先进行了离线测试。也就是用clutrr数据集中,预先划分好的“验证集”来跑分。这部分数据模型在训练时是没见过的,可以初步检验模型的泛化能力。
    他敲下了测试指令,看著进度条一点点向前推进。
    趁著测试的空档,他打开了papers with code网站,搜索了clutrr数据集的最新排行榜。
    排名第一的,是deepmind在半年前发布的neuro-symbolic gnn (v2),准確率达到了92.4%。这是一个专门为逻辑推理设计的、极其复杂的混合架构,號称融合了神经网络和符號ai的精髓。
    紧隨其后的是openai的gpt-4o (fine-tuned),经过专门的微调后,在这个任务上也跑出了91.8%的高分。
    再往下,是meta的llama-3-70b,得分88.5%。
    “最高92.4%……”
    徐辰看著这个数字,若有所思。
    “看来这两年,工业界也没閒著,確实在逻辑推理上下了不少功夫。能把概率模型逼到这个份上,已经是工程学的奇蹟了。”
    隨后,徐辰还搜到openai的灵魂人物伊利亚对於这类问题的感嘆:“缩放定律在逻辑任务上开始显示出边际效应递减。我们投入了10倍的数据和算力,却只换来了0.5%的提升。我们需要一个新的范式,但我们还不知道它是什么。”
    看著这段文字,徐辰心中涌起一股奇异的感觉。
    其实,站在金字塔顶端的那群人——无论是哈萨比斯、伊利亚,还是杨立昆——他们比谁都清楚,当前的llm已经撞上了一堵看不见的墙。
    他们就像是把“炼丹术”发挥到极致的古代方士,虽然能炼出璀璨的琉璃,却始终无法触及化学的本质。他们知道单纯靠堆算力、堆数据,永远无法让概率模型產生真正的、严谨的逻辑闭环。
    他们在黑暗中在此徘徊,焦灼地等待著。
    ……
    就在这时,终端窗口发出“叮”的一声轻响。
    测试完成。
    徐辰深吸一口气,將目光移回终端。
    屏幕的最下方,一行白色的字符静静地停在那里。
    【测试准確率: 95.3%】
    徐辰愣了一下,隨即揉了揉眼睛,凑近屏幕確认了一遍。
    95.3%。
    比deepmind那个集结了全球顶尖算力与智慧、结构复杂到令人髮指的sota模型,还要高出整整3个百分点!
    在机器学习这个卷到极致的领域,通常提升0.5个百分点,就足以让一篇论文登上cvpr或者neurips这样的顶会;提升1个百分点,那就是年度最佳论文的有力竞爭者。
    提升3个百分点?
    那不叫提升。
    那叫代差。
    更可怕的是,deepmind那个模型,可是经过了无数工程师日夜调优、用了数千张tpu训练了几个月才得到的“完全体”。
    而徐辰眼前这个呢?
    这只是一个他花了两天时间手搓出来的、甚至连dropout、layernorm这些基础的神经网络优化技巧都还没来得及加的基础模型。
    徐辰靠回椅背,看著屏幕,忍不住感嘆了一句。
    “这就是数学的降维打击啊……”
    ……
    徐辰看著那个接近满分的数字,心中虽然高兴,但並没有狂喜。
    毕竟这只是离线测试,也就是在自己家门口跑跑,谁知道会不会有过擬合的嫌疑?
    他打开了clutrr数据集的官方评测网站。
    这是一个全球ai研究者公认的竞技场。你需要下载官方提供的“测试集”,这部分数据是绝对保密的,不仅没见过,而且难度更高,逻辑链条更长。
    然后,徐辰將模型预测的结果文件上传到伺服器,由官方进行评分。
    由於只上传预测结果,不上传模型,並不会泄露模型,所以徐辰也就放心地提交了。
    在註册帐號时,徐辰犹豫了一下。
    “起个什么名字好呢?”
    他想了想,手指在键盘上敲下了一个字母。
    x
    “就用这个吧,xu的首字母,简单好记。”
    ……
    屏幕上出现了一个旋转的加载图標,几秒钟后,页面刷新。
    准確率95.12%。
    徐辰看著这个数字,满意地点了点头。
    线上和线下的成绩几乎一致,说明模型的泛化能力极强,没有过擬合。
    “对於一个还没怎么调参、连dropout都没加的『玩具模型』来说,这个成绩,勉强及格吧。”徐辰凡尔赛道。
    他伸了个懒腰,看了一眼窗外已经泛白的天空。
    “困了,睡觉。”
    他隨手关掉了网页,合上了电脑,就像是刚刚打完了一局普通的单机游戏,爬上床,拉过被子,秒睡。
    然后徐辰不知道的是,这个测试虽然不会泄露模型,但是测试的分数会即时更新到排行榜……

章节目录

学霸的征途是星辰大海所有内容均来自互联网,御宅屋只为原作者佚名的小说进行宣传。欢迎各位书友支持佚名并收藏学霸的征途是星辰大海最新章节