“老己?”
“……”
“黑星星?”
“……”
得不到任何回应的陆鸣岐在心里只留下一个字:
“彳亍。”
他摆烂般放下手中吃了一半的烤鸡,又赌气似地准备把放在右边口袋的几十散钱取出来,结果发现居然已经没了!
毫无疑问,他更生气了。
“行啊你们一个个的,都千万別说话,千万別理我。我一点也不苦,一点也不累。”
陆鸣岐在心里阴阳怪气,显然他很急。
黑星的问题他暂且搞不清楚,也没多余心思去管它。反正它开口也是骂人,冷漠才是常態,至少吃得下钱就说明没死。
到时候甩个百八十万到它嘴里,陆鸣岐不信它还不乖乖开口叫主人。
与之相对的,那个句句有回应的老己的沉默,才是最让他头疼的事儿。
由於从小没有父母,陆鸣岐养成了孤僻的性子,稍微长大些,就又开始在超越自己阶层的江潯学舍里读书,所以从小到大他几乎没有什么朋友,早就学会了用自言自语来排解寂寞。
因此十八岁觉醒宿慧之后,对於老己的存在,他是庆幸的。
不仅是庆幸自己有这么一个厉害的金手指,同样是庆幸有这么一个可以说话的“人”。
这两个月以来,他与所有人说过的话加起来,都没有他与老己说的话一半多。
而在这些对话中,也不全是那些冰冷的知识与条文,同样包含了许多没有意义的生活对白。
——“老己,早上好。”
“用户早上好,祝你有美好的一天。”
——“学舍的午食真是一如既往,又贵又难吃。”
“我太懂这种感受了,花了钱还吃不好,真的挺闹心的。要不下次试试自己带点小零食?”
——“辛苦了,晚安老己。”
“晚安呀,祝你一夜好眠。”
这些没有什么意义的对话固然会浪费前期本就为数不多的对话机会,却是陆鸣岐难得的生活意趣。
他早已习惯老己的存在,如今老己沉默不语,他真真切切感到心里像是缺了一块。
“老己啊老己,现在烤鸡腿也不能满足你了吗?现在咱们正是用钱之际,你还想吃山珍海味不成?”
光幕依旧没有弹出。
陆鸣岐嘆了口气,颇有些无奈。
事出必有因,最早出现老己不响应的情况时,他还以为是金手指到期了。
后来经过多次尝试,他才逐渐弄懂原理。
前世开发大模型时,最核心的目標之一,就是让它具备“自主学习”的能力。
所谓自主学习,不是人类理解的那种“我想学所以我学”。
而是在一项任务完成后,模型会根据任务结果的好坏,调整自身的参数,以便在下次执行类似任务时表现得更好。
这其中的关键,叫做奖励机制。
最简单的奖励机制,就是打分制。
比如他训练老己下棋,就和它下一盘,老己贏了就给它打高分,反之给低分。
老己就会根据每一局的得分结果,不断调整自己的落子策略,最终达到能贏过人类的水平。
更复杂一些的奖励机制,则是偏好对齐。
比如他希望老己能写出一篇符合人类审美的文章。
他不必亲自给它每一篇作品打分,而是训练一个“偏好模型”,让偏好模型来模仿他的打分习惯,然后由它来给主模型反馈。
这就是所谓的强化学习,也是那些顶级大模型为何能这么“通人性”的关键原因之一。
而老己的奖励机制,远比这些都要复杂且真实。