曹逸森站在那堆机器前,盯著nvicore的標识看了一会儿,忽然开口:
“硬体我们有了。”
麦克转头看他:“然后呢?”
“软体反而不是最大的问题了。”
麦克一听这句,眼皮跳了一下。他已经很熟悉曹逸森的说话逻辑了。
一般他说“不是问题”的时候,意思往往不是这事很简单,而是这事会很贵、很麻烦、但他已经决定要干。
“你先等一下。”麦克抬手,“我有不好的预感。”
曹逸森没理他,继续说:“2021年的ai软体生態,还很原始。不是说没有东西,而是太割裂。研究论文有,开源模型有,实验项目也有,但真正能把它们真正做成產业工具的人,太少了。”
他说著,伸手在空气里比了个框。
“我们要做的不是一个玩具。”
“我要的是k-pop界的ai大脑。”
麦克沉默两秒。
“你刚才还说自己不是反派。”
“这是產品愿景。”
“听起来像什么反派產品愿景。”
“隨你怎么理解。”曹逸森转头看他,“总之,机器只是基底,真正值钱的是人。”
麦克一脸警惕:“你又看上谁了?”
“不是谁,是三类人。”
曹逸森往旁边走了几步,隨手拿起一支油性笔,在仓库临时白板上写下三个词。
architecture(结构)。
visual(视觉)。
audio(音频)。
麦克看著白板,表情一点点严肃起来。
他知道,曹逸森这次不是隨便脑洞。
这是要真开始组个ai团队了。
——————————————
第一类,深度学习架构师。
曹逸森在白板第一栏下面写下:
transformer /音乐生成模型/多模態规划
“2021年,大模型还在萌芽阶段。gpt-3已经出来了,但它还没有变成普通人手里的对话工具。大眾还不知道以后会发生什么,很多工程师也还停留在论文、实验室、api演示的阶段。”
麦克点了点头。
“所以你要从closeai或者deepmind挖人?”
“对。”曹逸森说,“不一定要最顶层那几个名字,我们也挖不动。我要的是那种真正懂transformer架构、懂模型训练、同时愿意把东西落地到垂直產业的人。”
他敲了敲白板。
“我不需要他给我写一个聊天机器人。”
“我需要他把模型微调成k-pop策划专家。”
麦克一愣。
“k-pop策划专家?”
“对。”曹逸森眼神亮了起来,“输入艺人资料、练习生训练数据、过往舞台反馈、粉丝评论、音乐榜单、短视频传播数据,它能给出方向建议。”
“比如:这个练习生適合走清冷视觉,还是邻家现实感。这个团该先发概念照,还是先发练习室视频。某首demo適合哪个成员开头,哪个成员压副歌。甚至哪一段最適合剪成十五秒短视频。”
麦克听完,愣了几秒。
“这听起来不像ai大脑。”
“那像什么?”
“像一个不会睡觉、不会加班费、还不会情绪崩溃的企划部总监。”
“嘿,所以我说它值钱。”
曹逸森继续写:
k-pop strategy model(kpop策略大模型)
“现在別人还在討论语言模型会不会写文章,我们要让它先学会看饭圈、看舞台、看消费情绪。”
麦克沉默了一会儿,忽然说:“你这个方向,硅谷那帮人未必看得上。”
“所以要会讲故事。”曹逸森回头看他,嘴角带著一点笑容,“你想像一下,我们直接派私人飞机去旧金山,把那些还在研究早期多模態的工程师接过来。”
“然后你告诉他——”
曹逸森清了清嗓子,换了一种很资本、很蛊惑的语气。
“在硅谷,你只能改变代码。”
“在我的公司,你可以定义全球年轻人的审美。”
麦克看著他,沉默了几秒。
“……你这个人真的很適合当什么邪教头子。”
“这是招聘话术。”
“这比招聘话术危险多了。”
“但会很有效的。”
麦克想了想,竟然没法反驳。
因为对很多真正有野心的工程师来说,钱当然重要,但“我做的东西能改变什么”更重要。你让他去优化gg点击率,他可能觉得无聊。可你告诉他,他能用ai参与塑造下一代全球流行文化,那诱惑力就完全不一样了。
“行。”麦克嘆了口气,“第一类,深度学习架构师。openai、deepmind,或者相关大模型团队。我要开始找猎头?”
“猎头、校友、会议名单、github活跃贡献者,全都拉出来。”
“你真是一点都不客气。”
“挖人不客气,人才才会觉得你认真。”
——————————————
第二类,gan大神。
曹逸森在白板第二栏写下:
stylegan2 /数字人生成/ 4k人脸纹理重建
麦克一看到gan(generative adversarial network,生成式对抗网络),表情立刻变得微妙起来。
“你要搞ai换脸?”
“別说得这么难听。”曹逸森瞥了他一眼,“我要搞视觉生成。”
“这不就是更贵的说法?”
“技术上类似,应用上完全不一样。”
曹逸森把笔帽咬开,又在旁边写了几个词。
virtual idol(虚擬偶像系统)
ai skin(ai皮肤生成技术)
expression rigging(高精度表情绑定)
aespa-like extension(类aespa虚擬分身扩展架构)
“2021年,是ai生成人脸和换脸技术特別活跃的阶段。stylegan2这种模型,已经能生成非常有真实感的人脸。很多人在玩deepfake,但那只是低级应用而已。”
“而k-pop最看重什么?”
麦克想了想:“歌?”
曹逸森看他,摇了摇手指。
麦克改口:“脸。”
“对,visual。”曹逸森打了个响指说道,“视觉是k-pop的入口。概念照、预告片、mv、舞台镜头、短视频,所有东西都先经过脸和身体。你有一套强大的视觉生成系统,就能在概念阶段快速测试造型、发色、妆容、虚擬形象,甚至做完整的数字分身。”
麦克皱眉:“你想做虚擬偶像?”
“不是马上做。”曹逸森说,“但一定要提前准备。”
“sm已经在aespa那条线上做虚擬延伸了。问题是,大多数公司做出来的虚擬形象,质感很容易变得很假。脸假、皮肤假、表情假,动起来更假。粉丝一眼就能看穿。”
他看著麦克,语气变得更认真。
“我要的是在4k镜头下也不穿帮的ai皮肤和表情纹理。”
“虚擬偶像能在练习室里和真人一起跳舞。”
“她不一定要完全替代真人,但她可以成为mv、ar舞台、短视频挑战、粉丝互动里的第二层角色。”
麦克听得慢慢坐直了。
“这就不只是娱乐公司了。”
“对。”曹逸森点头,“这是虚擬內容资產。”
他继续说:“这类人,可以从nvicore內部、斯坦福、cmu、甚至一些做图形学和视觉ai的实验室挖。不要只找会调包的人,要找真的理解生成模型、渲染、表情捕捉和视觉美学的人。”
麦克看著白板。
“这类人才会很贵。”
“便宜的人做不出好的东西的。”
“你还真是要么不做,要做就往烧钱方向做。”
曹逸森笑了笑。
“因为半吊子的虚擬偶像,会显得很蠢。”
“而一旦显得蠢,就不如不做。”
麦克点点头:“这句我同意。”
——————————————
第三类,音频信號处理专家。
曹逸森在第三栏下面写下:
dsp(数位讯號处理)
source separation(声源分离)