voice cloning(语音克隆)
real-time vocal demo(实时声乐demo生成)
这一次,麦克立刻明白了。
“这个和k-pop最直接。”
“对。”曹逸森说,“视觉能让人点进来,音频才能让人留下。”
他把笔放下,语气放缓了一点。
“2021年的音频ai还没那么成熟。spleeter这种伴奏分离工具已经有了,但还是粗糙,分离质量、实时性、可控性都不够。语音克隆也在发展,可真正能用於音乐製作,尤其是高质量歌唱声线的系统,还远远不够。”
“所以我们要从spotify、ircam、dolby、或者做音乐信息检索、语音合成的人里挖。”
“核心任务有三个。”
他竖起一根手指。
“第一,伴奏和人声分离。”
“练习室、live、舞台、综艺、饭拍,只要音频质量够,它就能把人声、伴奏、观眾噪音拆开。以后我们做舞台復盘、live修復、短视频剪辑,效率会高很多。”
第二根手指。
“第二,艺人声线建模。”
麦克挑眉:“这个会有点敏感啊。”
“所以一定要在內部做,且有严格授权。”曹逸森说,“不是拿来偽造艺人声音,而是拿来做demo预览。”
“比如製作人写了一段副歌,不用每次都叫艺人进棚试唱。输入歌词和旋律,系统先用艺人的声线生成demo。製作人听完,判断適不適合这个成员,再决定要不要安排正式录音。”
“这样能省多少时间,你知道吗?”
麦克没说话。
他当然知道。
如果一个团有五六个成员,每个人声线不同,製作人光试分part就能耗掉大量时间。ai先生成草案,不是替代艺人,而是让製作环节变快。
第三根手指。
“第三,实时修復和应急合成。”
麦克看著他:“你是不是要说艺人感冒失声,也能用ai上台?”
“正式现场不行。”曹逸森摇头,“那是找死。”
麦克鬆了口气。
“但后台demo、彩排、电视台预录参考、临时替代guide vocal,可以。”
“比如艺人感冒失声,製作人还得赶某个版本。dsp专家在后台敲几行python,调用本地伺服器,根据授权声线模型生成足够逼真的高音demo。不是拿去骗粉丝,是拿去让製作流程不中断。”
曹逸森顿了一下,又笑著补了一句:
“当然,如果质量能做到足以骗过格莱美评委,那更好。”
麦克举手:“这句我建议不要写进招聘邮件。”
“我知道。”
“也不要写进商业计划书。”
“我没那么蠢。”
麦克一脸怀疑地看著他。
曹逸森懒得理他,继续道:“这类dsp专家,是最先要落地的。因为音频是我们最直接的业务。hzn也好,cube也好,田小娟也好,都立刻能用。”
麦克点头。
“这个我支持优先招。”
白板上很快写满了东西。
深度学习架构师。
gan视觉大神。
dsp音频专家。
几条线摆出来以后,仓库里那几台dgx a100的意义也清晰了。
它们不是买来摆著嚇人的。它们是给这些人准备的武器。
麦克站在白板前,看了很久,最后低声说:
“这团队要是组起来,成本会非常夸张。”
曹逸森点头。
“我知道。”
“closeai、nvicore、斯坦福……这些地方的人,一个比一个贵。你不只要开高薪,还得给他们项目自由、股权、实验预算,甚至还要给他们一种『我不是来娱乐公司修音的,我是在定义新產业』的幻觉。”
“不是幻觉。”曹逸森纠正,“是真实的项目。”
麦克看著他,揉了揉太阳穴。
曹逸森指了指白板,又指了指那台dgx a100。
“你想想,我们现在手里有什么。”
“纽约,有unity的钱。”
“首尔,有hzn的厂牌,有cube的运营权,有田小娟这种创作者,有gidle这种ip,有练习生,有舞台,有真实產业场景。”
“洛杉磯,有机器,有工程师,有和美国音乐圈、科技圈连接的入口。”
“硅谷那些ai团队,很多人最缺什么?”
“真实场景。”
“他们有论文,有模型,有benchmark,但没有一个能让他们立刻看见自己技术如何影响真实偶像、真实粉丝、真实舞台、真实商业回报的地方。”
曹逸森看著麦克,声音越来越稳。
“这个我们能给他们。”
“也能给他们数据,给他们舞台,给他们艺人,给他们反馈闭环。”
“他们在別的地方只能做工具。”
“在我们这里,他们能做整个系统。”
麦克沉默了。
他不得不承认,这套话术如果真拿出去讲ppt,確实会很有杀伤力。
尤其对於那些不想一辈子待在大厂里优化推荐系统、ggctr、內部api性能的工程师来说,这简直就是另一个世界。
一个更混乱、更商业、更冒险,但也更有故事感的世界。
过了好一会儿,麦克才开口:
“你知道最可怕的是什么吗?”
“什么?”
“我一开始觉得你疯了。”
“现在我居然觉得,这事可能真能成。”
曹逸森笑了。
“那说明你开始进入状態了。”
“我不是进状態,我是被你拖下水了。”
“区別不大。”
麦克嘆了口气,拿出手机开始记。
“行。第一步,我联繫猎头和湾区的人。closeai和deepmind直接挖可能很难,但可以先找离职边缘、合同快到期、或者想创业的人。”
“第二步,视觉这块我从nvicore和斯坦福那边摸线。”
“第三步,dsp这块我去spotify和纽约音乐科技圈问。ircam那边我得找找欧洲关係。”
曹逸森点头。
“別只用钱砸。”
“知道。”麦克说,“用愿景砸。”
“还有股权。”
“你终於说到他们真正爱听的了。”
曹逸森笑了一下。
“愿景负责让他们上飞机,股权负责让他们留下来。”
麦克看著他,半天吐出一句:
“你真的越来越像老板了。”
“我本来就是。”
“以前你更像天才交易员。”
“现在呢?”
麦克看了眼白板,又看了眼那台dgx a100,最后说:
“现在像一个准备把整个娱乐圈拆开重装的疯子。”
曹逸森没有反驳。
他只是转身看著仓库里那几只还没拆封的箱子,眼神里那点兴奋慢慢沉成了更深的东西。
“拆开重装也没什么不好。”
“韩娱这套系统,太依赖人肉经验了。”
“谁更会熬夜,谁资源多,谁关係硬,谁能压榨团队,谁就贏。”
“我想换一种玩法。”
麦克问:“用ai?”
曹逸森点头。
“用ai,把经验变成系统。”
“用算力,把小公司的试错成本打下来。”
“用模型,把创作、训练、宣发、视觉、发行,全都往前推一格。”
他说完,轻轻拍了一下那台dgx a100。
“先从这几台机器开始。”