香书小说

最新地址不迷路:www.xbiqugu.com
香书小说 > 学霸的征途是星辰大海 > 第503章 数学AI的训练 二

第503章 数学AI的训练 二

骨架有了,但要让这匹“赛博牛马”真正拥有干碎n-s方程的实力,还得给它餵海量的“草料”,也就是数据集。

在这个大模型时代,得数据者得天下。2027年,算力可以租赁,算法论文隨时开源,但高质量的垂直领域数据早已成为各家大厂秘而不宣的数字护城河。

对於数学ai来说,所需的数据集应该包含大量的高质量数学证明、推导过程、以及问题-解答对。这种数据在2027年的生態中,已经形成了一个完整的產业链。

开源数据资源已经相当丰富。arxiv上公开的所有数学论文,虽然大多是文本形式,但其中的数学推导完全免费可用。不过,这些原始的latex代码和pdf文档充满了格式噪音。

此外还有各大高校歷年发表的教材讲义、维基百科上的数学定理词条、stack exchange和mathoverflow等社区问答网站的爬虫数据包。这些开源资源加起来,已经能提供数百万条以上的高质量数学推导示例,足以作为预训练的基础语料库。

但仅有这些还不够。开源语料只能教会ai“什么是常规的数学推导”,徐辰需要的是更加专业、更加精准的高阶逻辑纠错数据。

这就是付费数据的作用所在。

目前国际上有几家专门做高端ai数据集的公司,比如scale ai、labelbox等,他们提供的付费数据集质量很高。对於数学领域,这些公司专门僱佣了数百位来自东欧和印度的数学博士和教授,按小时计费,让他们手工標註、验证、甚至生成新的高质量训练数据。

一个包含十万条高质量数学推导的专业数据集,市场价格大约在50到100万美元之间。

一百万美元,换算成人民幣大几百万。放在普通的双一流高校,这绝对是一笔需要经过层层立项审批、甚至连副校长都要亲自把关挠头的巨款。

但对现在的徐辰来说,这压根就不叫事儿。

他可是雁棲湖应用数学研究院的院长。在他的名下,躺著一笔额度高达千万级別的院长专属启动资金。而且,买顶级数学数据集来训练ai解n-s方程,这本身就是根正苗红的“应用数学交叉研究”,连半点挪用经费的嫌疑都没有。他这个大院长只要在採购单上大笔一挥,財务那边立刻就能痛快走帐。

“能用钱解决的问题,永远是科研中最简单的问题。”

……

解决了数据,接下来的核心就是算力了。

徐辰看了看自己目前能调用的北大计算中心的权限。

北大当然不缺算力,但这里的集群主要还是以传统的gpu和cpu为主,更適合做大规模的矩阵並行计算和深度学习的常规训练。

但徐辰设计的这个模型,核心是slrm逻辑推演和流形上的张量拓扑。

他需要的是lpu(逻辑处理单元)集群,就是专门为slrm设计的晶片。不过这款晶片刚刚上市一年多,產能完全满足不了ai企业巨大的胃口,因此在市场上依然极为紧俏,属於有钱都不一定能买得到的顶级战略资源。

徐辰很快就想到了自己背后那个財大气粗的雁棲湖研究院,那里作为国內顶级的科研机构,应该会有吧。

『记住本站最新地址 www.xbiqugu.com』