HF0 W24 · FIELD DISPATCH

ACE Studio
二十六个切面

把两场对谈里所有关于 ACE Studio 的段落拆成独立切面。一支中国 AI 音乐团队,如何在 HF0 的地下室里、用 12 周把月收入从 8 万美金做到 80 万美金。每一面都是一把切刀。

讲述人是 Joe / 郭靖(ACE Studio 创始人,CEO)和 赵文骁(联合创始人兼 CTO)。两场访谈一场来自 42 章经,一场来自白鲸实验室。ACE Studio 是面向专业音乐制作人的 AI 音乐工作站,前身是移动端的「ACE 虚拟歌姬」。2024 Q4 被硅谷顶级 residency HF0 选中并投资,在旧金山一间不见天日的地下室里完成三个月的封闭冲刺——这是他们把 10x 增长拆到每一根轴上的故事。

01
公司底色:一支被音乐吸住的团队

ACE Studio 隶属于时域科技。Joe 和合伙人的第一次创业是汽车后市场的 AI 聊天机器人——维修工场景的智能助理。失败之后他们得到一个反思:应该做跟团队调性高度一致的产品。整个团队都非常热爱音乐,Joe 本人学过钢琴、懂乐理,于是掉头做 AI + 音乐。

我发现我们团队的人都非常的热爱音乐,所以最终我们决定就走 AI + 音乐这条路线。

术语
时域科技
ACE Studio 的母公司主体,中国注册。
DeepBach
早期 AI 音乐模型,输入文字或条件生成符号化的巴赫风格钢琴谱。
02
产品的硬技术底蕴

核心能力是 AI 歌声合成(SVS):输入旋律(MIDI)+ 歌词,输出动听的人声。支持男声、女声、男高音、女高音、美声、民族、甚至歌剧;中文、英文、日语、西班牙语多语种。内置从哼唱抽 MIDI 的模型、预设模板库,还允许用户上传几首干声训练自己的 AI 音色。

术语
SVS
Singing Voice Synthesis,歌声合成。给旋律和歌词合成带情感的人声。
MIDI
Musical Instrument Digital Interface,音乐表达的通用符号格式:记录每个音的音高、时值、力度。
DAW
Digital Audio Workstation,数字音频工作站,比如 Logic、Cubase、FL Studio。
干声
Dry Vocal,不加混响、伴奏的纯人声录音,用于音色训练的高质量素材。
03
前身:ACE 虚拟歌姬

PC 端 ACE Studio 的前身是移动端 App「ACE 虚拟歌姬」,2018 年起步,2022 年 3 月立项 ACE Studio、5 月上线第一个版本、经过一年多内测、2023 年正式对外。App 免费、巅峰 DAU 接近 10 万,在行业内是顶尖水平,但留存不够高——这是制约。

术语
DAU
Daily Active Users,日活跃用户数。
留存 (Retention)
一段时间后仍在使用产品的用户比例。娱乐型产品的核心痛点是留存衰减。
04
2022 年 Pre-A:三家机构背书

2022 年完成 Pre-A 轮,投资方为五源资本、顺为资本、万物资本。融资由 CEO 周(Joe)主导。打动投资人的三点:在 AI + 音乐方向积累多年、全世界同类技术公司屈指可数;踩中了当年「元宇宙 / 虚拟偶像」的投资主题;ACE 虚拟歌姬的 DAU 数据硬。

术语
Pre-A 轮
A 轮之前的早期融资,通常在产品跑出基础数据、但商业模式未完全成熟时完成。
虚拟偶像
以数字形象和 AI 合成声音出道的偶像,代表是初音未来、洛天依。
05
To B 的输血:洛天依和使命召唤

融资前的现金流靠 to B:给洛天依(国内第一个 AI 虚拟歌手)做音色;给腾讯《使命召唤》手游做过一把"唱歌的 AI 枪"——需要有旋律、但听得出是 AI 唱的。Joe 的原话:「to B 覆盖不到成本,但是可以缓解。」

06
PMF 是一种"感觉",不是 ARR 阈值

文骁不接受"6–12 个月做到 1000 万美金 ARR"那种硬指标。

PMF 其实是一种感觉——你不需要特别费力的推广也可以获得新的用户,你有一些收费的门槛,依然还是有很多用户去用。

反过来说,如果你一停止推广新用户马上下来、一加收费就不用了——那就不是真需求。

术语
PMF
Product-Market Fit,产品-市场匹配。创业最关键的里程碑。
ARR
Annual Recurring Revenue,年度经常性收入。SaaS 估值的核心锚。
07
虚拟歌姬为什么不是真 PMF

虚拟歌姬是偏娱乐的产品,用户"玩一玩、图新鲜",没有从产品产生利润;留存自然一般。ACE Studio 则对专业音乐人是真省钱——省掉约录音棚、约歌手的成本。两种产品的留存差异就是 PMF 的差异。

08
从 ToC 到 Pro-C

产品形态从移动端 App 迁移到 PC 端专业软件(Mac、Windows)。用户群也从 B 站调教师、虚拟偶像小孩,切到成熟的音乐创作者。文骁给了一个新标签:

不是 to C,叫 Pro-C。

术语
Pro-C
Professional Consumer。介于 ToB 和 ToC 之间,面向有付费能力的专业个体用户(如创作者、设计师、音乐人)。
调教师
虚拟歌手圈的用户身份——靠参数调教让 AI 歌声更像人,作品在 B 站传播。
09
Suno 出来的"震动"与澄清

Suno V3 被称为音乐界的 ChatGPT 时刻。ACE Studio 很早就在跟——Suno 的前身 Bark / AudioLM。V3 确实是一次"非常巨大的跃升",但文骁判断对 ACE Studio 不构成方向冲击:Suno 是 "model as a product",用户在网页上一键出歌、图新鲜;ACE Studio 是帮创作者精确控制旋律、音色、细节的生产工具——歌跟创作者的关系并不相同

术语
Model as a Product
模型即产品。模型输出直接是终端体验,没有额外的应用层加工。典型如 ChatGPT 早期、Midjourney、Suno。
AudioLM / Bark
Google 与 Suno 的早期音频大模型研究——文本直接生成音频。
10
文生音乐的真·难点:数据与审美

文骁说,和文生图、TTS 相比,文生音乐的瓶颈是数据和审美对齐。公开数据集少、专业标注成本高;音乐四分钟、44100Hz 采样意味着 token 长度是图片的好几个量级;最硬的是把模型跟人类偏好 align 到一起——"好听不好听"是强跨时代、强文化的,模型可能生成的是 80 年代好听的歌。

术语
TTS
Text-to-Speech,文字转语音。文生语音目前最成熟。
Multi-modal 多模态
让一个模型同时理解/生成多种模态(文字、图像、音频)。关键是把各模态投到同一个语义空间。
Alignment 对齐
让模型输出符合人类偏好的过程。通常通过 finetune、RLHF、精选数据实现。
Finetune
微调。在预训练模型上用一批精选数据继续训练,把它"调往"某种风格/目标。
Loss
损失函数。模型训练优化的目标值,权重失衡会导致某些特征被过度强调(比如人声压过伴奏)。
11
出海的必然性:音乐人的 11 倍收入差

决定出海不是情怀,是数据。网易云注册音乐人 50 万,Spotify 注册音乐人 800 万;调研显示美国音乐创作主体人均年收入是中国的 11 倍;YouTube 音乐教程博主的播放量是 B 站同类的数量级倍。国内音乐人群体既小、又因版权不成熟而难靠创作赚钱。

术语
出海
Go Global。中国产品切入海外市场的统称,2024 年后 AI 产品出海成主流叙事。
Spotify
全球最大音乐流媒体,是海外音乐人的基础设施。
12
NAMM Show:肉身到场才能醒来

2023 年底到 2024 年初,三个合伙人飞到美国参加 NAMM Show(全美最大的乐器与音乐设备展)。展位前的老外看完都在喊 "unbelievable",甚至跑到屏幕后面找"是不是有人在唱"、然后把朋友拉过来看。现场收了 100+ 邮箱——其中 20+ 个是格莱美提名或获奖者。这趟没有立刻带来收入,但给了团队出海的信念。

术语
NAMM Show
National Association of Music Merchants,全球最重要的音乐乐器与产品展会,每年 1 月在加州 Anaheim 举办。
Grammy
格莱美奖。美国乃至全球音乐产业最高荣誉。
13
100 封邮件 0 回复

最开始的出海推广按常识做——Facebook / Google 买广告、给 YouTube 博主写邮件。两条路同时失败:广告 ROI 几乎为 0,邮件一个月发出 100 多封、零回复。Joe 形容「稍微有点怀疑人生」。

术语
ROI
Return on Investment,投资回报率。广告场景里指每花 1 美金能赚回多少美金。
Reach Out
主动联系对方。海外 KOL 合作的第一步。
14
进 HF0:好朋友一条微信

Raven 的创始人——Joe 的好朋友,上一期 HF0 batch——一条微信推荐。Joe 根本没听过 HF0,Google 完只搜到很少信息。线上一个凌晨 3 点的 calendar slot 跟 Evan 聊完,第二天再跟 Dave 聊,Dave 说:「你一定要过来 in person 面试。」

Dave 说你别 IC,你赶紧来——因为现在有地缘政治的问题,cap table 上如果有更多的中国投资人,可能就更难。

Joe 当天订机票,第四天飞到旧金山,第五天线下面试,上午聊完下午拿 offer。整期 3000 团队申请、只招 10 个

术语
HF0
Hard Fork Zero。由 Dave Fontenot、Evan Stites-Clayton、Emily Liu 创办的硅谷顶级 residency 孵化器,Marc Andreessen、Chris Dixon 等支持。孵化过 ComfyUI、Story.com 等。
Batch
一期孵化期。HF0 一期 12 周。
Cap Table
Capitalization Table,公司的股权结构表。
IC
Investment Committee,投资决策会。机构 VC 内部终审会议。
SAFE
Simple Agreement for Future Equity,YC 发明的可转债式早期融资协议。HF0 给 ACE Studio 打的是 100 万美金 SAFE。
15
HF0 不是加速器,是 residency

Joe 说:HF0 不是 accelerator,它管自己叫 residency。它强调的词是 container——容器。

我给你提供的是一个容器,进来之后,12 周的时间里边,你的常规的日常生活就关停了,就只有工作,没有生活。这里面整个时间是扭曲的,空间也是扭曲的。

区别于 YC 的"给点钱 + 周期 checkin + demo day"相对松散模式,HF0 强制你长期待在一个物理地方

术语
Residency
"驻留项目"。一种让创作者/创业者集中住在同一地点、全时段工作的孵化形态,本源是艺术家驻地。
Container
HF0 用的隐喻——"容器"。物理上是 house,文化上是时空扭曲的保护罩。
16
HF0 不教业务:那杯水叫信念感

Joe 用《太空大灌篮》的比喻讲清了 HF0 的机制:乔丹给卡通队友喝的"兴奋剂"其实是一杯水。HF0 就是那杯水——它不教你怎么做业务,它让你相信你能涨 10 倍。这个在表演里叫"信念感"。

如果一个创始人需要你帮他想方向、搞业务、做团队,那肯定还是有问题的。

但是信念感本身很难自我激发——如果他们自己在硅谷租一个 house、每周开会,很快会被"这是不是太贵了""双周会是不是更合理"之类的合理性摧毁。

术语
信念感
表演学术语:演员把自己真正代入到角色所处情境里的心理状态。Joe 用它形容一个团队对"我们能涨 10 倍"这件事真的相信的状态。
Placebo
安慰剂。Joe 承认 HF0 的有效性里有这一层,但是"这杯水"确实管用。
17
开营前先上山:灵修仪式

ACE Studio 一行 6 人于 2024 年 9 月 18 日开营、12 月 5 日 Demo Day 结束。开营前几天 HF0 把大家拉到山上做"类灵修"的素质拓展、一起冥想——目的是让团队"从山上回来进到 house 的下一秒,就全力专注在最重要的那一件事情上"。

18
Demo Dinner:周一晚上 6 点的两分钟

HF0 最核心的仪式是 Demo Dinner:每周一晚上 6 点,每个团队两分钟当着所有人分享本周成果。规则很重:不鼓励讲"我这周开发了什么",只鼓励讲"我这周实现了什么结果"。周二还有 weekly check-in,HF0 partner 一对一帮你定 KPI。

最大的压力和最深的恐惧就是别丢脸。我每周想的事儿就是我下周 Demo Dinner 我要讲啥。

文骁的总结更正面:这个仪式是时间、进度、压力测试的复合体——没有它很容易陷在某个细节里、丢掉进度追踪。

术语
Demo Dinner
HF0 每周一晚餐同桌展示周进度的仪式。核心约束:只讲结果,不讲过程。
KPI
Key Performance Indicator,关键绩效指标。HF0 强调 KPI 必须极简。
Peer Pressure
同辈压力。HF0 物理上的设计让它极大化。
North Star Metric
北极星指标。被选作第一优先级的单一指标,其他都要让位。
19
North Star:只看收入

HF0 要求 KPI 极度简化——不是用户数、不是留存、就一个收入数字。ACE Studio 给自己定的 12 周目标是月收入 50 万美金(当时是 8–9 万,约 5–6 倍增长)。文骁说他们最初定的其实是 6–7 倍,但 Joe 故意往高瞄——"先瞄准月亮才能落在星星上"。Dave 和 Evan 听完的表情是"厉害"。

20
地下室没有阳光

HF0 的 house 有两个办公区,ACE Studio 被分到地下室。HF0 的说法是地下室更好——没有阳光,你可以忽略时间。地下室里有个休息间,房顶投影了星空,"你出了这个休息间就是白天,累了进去就是晚上"。

作息越来越颠倒:9 点起、10 点起、11 点起、下午 2 点起;睡觉从 2 点、3 点、4 点、5 点、6 点、7 点——最后直接倒成国内时区,方便和中国团队同步。整期他们是 batch 里"最肝"的团队,大约一周 80+ 小时。

21
前五周不涨:濒临崩塌的信念感

前 5 周他们每周只增长 1–2%,同期 batch 里另一个团队从 2 万→ 3 万→ 4 万,每周 30–40%。10 月 31 日晚上 Dave 做了一次 speech——"Some team breakout, some team hangout"。Joe 当时想跟 Dave 商量能不能换目标。

Dave 说你们的目标应该还是有且只有收入。其他的东西都是你们妥协了、你们害怕了。

那天晚上他三个合伙人加运营负责人在旧金山的公园转了很久,穷举所有还没试的招。

22
涨价一倍:那招一晚上就 double

Quora 的 co-founder 来 HF0 讲过一次:Quora 在瓶颈时穷举了 20 个增长方案,按概率一个个试,试到第 11 个才形成指数级增长。启发:如果不刻意一招一招穷举,很多人会在第 5、7 次就给自己下结论。ACE Studio 当晚穷举完、第二天早上睁眼——

我们那招很简单,你就涨价,涨价了一倍。

这听着搞笑,但它体现了硅谷方法论的核心:所有事情都要做实验,包括定价。Joe 说抓 100 家创业公司问定价,98 家从来没测过。

术语
Pricing Model
定价模型。海外 office hour 里所有人问 ACE Studio 的第一个问题都是这个。
Sweet Point
在几组价格里测出来转化率和单价乘积最大的点。
23
三轴拆解:产品、营销、定价

文骁讲了一套更几何的拆法:公司总收入 = 产品 × 营销 × 定价 的立方体。ACE Studio 的产品轴很长,但营销轴和定价轴很短。短板提 1 个单位 = 总面积大涨;长板提 1 个单位 = 总面积小涨。12 周内先补短,之后才回头优化产品。Joe 的版本更像正方形两条边:"你光做产品价值,做到天还是一根线。"

24
违反直觉的付费改动

原来是"先免费试用再订阅"——100 人进来、90 人试用、试用结束 8 人订阅,总付费率 ≈ 7.2%。改成"先订阅再试用"——第一步只剩 40 人,但试用后仍有 40 人留住,总付费率 = 16%。反直觉,但几何结果更高。他们还取消了试用(美国大量假卡白嫖)、取消了月卡,做了几十家同类软件定价调研。

25
Blake Anderson 的一天 100 个 Influencer

HF0 office hour 请来的 Blake Anderson(Cal AI 创始人,20 多岁做独立 App、月入百万美金)问了 Joe 一句关键问话——"你一周能联系多少个 influencer?"Joe 说一个月几十到上百个,Blake 说:我一天能联系 100 个

原来我们之前做这件事情就没做对。如果我意识到要一天联系 100 个数量级才叫做对,那我就会重新思考这个问题应该怎么做。

ACE Studio 基于此建了一套 SOP、迭代出 20+ 个邮件模板(联系黑人、联系拉美裔用不同模板,每个模板测转化率)。

术语
Influencer Marketing
通过 YouTube/TikTok 等平台的内容创作者做产品推广。
SOP
Standard Operating Procedure,标准作业流程。创业阶段把一件事做成流程就是在为 scale 做准备。
Funnel / 漏斗
用户从触达到付费的转化链路。每一级都会衰减。
26
Doctor Mix 和 700K 播放

英国音乐博主 Doctor Mix(~100 万粉)拍了一期 ACE Studio 的视频,播放量约 700K,远高于他自己视频平均 50K–100K 的基线。原因:ACE Studio 本身在音乐行业够"前沿",博主获得破圈播放量,ACE Studio 获得品牌曝光——双赢

27
Paid Ads ROI 做到 2 倍

Influencer 视频的内容又被回灌进付费广告——表现好的视频拿去投 Paid Ads,效率巨高。ACE Studio 最终把纯付费广告的 ROI 做到 2 倍。转化管道从注册一路优化到真实订阅——一个订阅的获客成本从几百美金压到 ~100 美金,低于 299 美金年费就意味着可以 scale up 投放。

术语
CAC
Customer Acquisition Cost,获客成本。只有 CAC 长期低于 LTV,广告才算成立。
LTV
Lifetime Value,用户终身价值。
Scale Up
放大。在单位经济模型跑通后加杠杆做规模。
28
老用户回流:每次升级发一封邮件

第三条增长杠杆被低估——挖老用户。HF0 期间他们升级了 foundation model、上线合唱版本(海外合唱团需求旺、组织 10 几个人现场排练极其昂贵)。每次升级给付过费但流失的老用户群发一封邮件——收入又会冒一个尖儿。

术语
Foundation Model
基础模型。一个领域里的大参数预训练模型,上层产品都在它之上做微调和包装。
Churn
流失。付过费后取消订阅的用户。
29
第六周之前的基建不可压缩

Joe 反思:即使第一天就拥有第六周的想法,也只能提前到第四周开始涨。前五周做的是基建——Tag Manager、数据 tracking、各个广告平台开户、转化数值对齐——这些东西省不掉。团队的思维和内功本身也是在积蓄过程中逐步成熟的。

30
Demo Day 的"小包袱"

12 月 5 日 Demo Day,每个项目两分钟 pitch。准备 pitch 整整花了一周,每天上下午两堂课。ACE Studio 到 Demo Day 时已经完成 10 倍增长,于是埋了个抓注意力的"包袱"——先假装跟投资人说:"我们已经赚这么多了,不需要投资,拜拜。" 然后再回来:"我们还是要投资的。"

它会给你留下一个长期记忆锚点。投资人第二天、第三天脑子里留下了什么记忆?他要靠一个锚点把相关信息定在脑子里。

术语
Demo Day
孵化器收官日,每个团队对着一屋子投资人 pitch。
Pitch Deck
创业公司的演示稿,通常 10–15 页。
31
美国投资人 vs 中国投资人

Joe 的观察:问的问题大同小异(天花板、团队、竞争、大公司会不会碾过你),但流程极度标准化。Pitch 是两分钟、亮点少于 3 点;follow-up 会议是 30 分钟、对方先两句自我介绍、你立刻讲亮点、两三个问题后 10 分钟就可以结束。"说话一定要比较 sharp。"

32
中国团队在美国的真实阻力

Joe 不同意"美国机构歧视中国团队"的妖魔化说法。真正的阻力是综合效应的麻烦:cap table 上有中国投资人,投资人要额外找律师确认合规、地缘政治风险无法给 LP 交代。

我可以亏钱,但是如果是因为系统性的结构化风险没有了解清楚导致钱被骗了——那我是要失业的。

所以解法是——人要肉身过去,不断出现在 party 上,慢慢让对方把你纳入"圈子里的人"。

术语
GP / LP
General Partner / Limited Partner,基金的管理合伙人和出资方。GP 要对 LP 交代每一个投资决策的事后逻辑。
33
ACE0:把 HF0 搬回国内

HF0 结束之后,ACE Studio 在惠州租了一个海景大 house,把几个核心开发拉过去做封闭研发。目标是端出下一代 AI 歌声模型 + 音乐大模型。Joe 解释为什么一定要海景——便宜的小区别墅也有,但他希望"大家推门进去那一刻就感受到这个地方是不同的",这是建构信念感的基础条件。他们给这轮起了个名字——ACE0,就是自家小 HF0。

Joe 的长期方案是每年做两次:一次研发加速周期、一次增长加速周期,有节奏地搞,不天天搞。

34
AI 产品化:我的壁垒就是我的"人日"

Joe 说他越来越确信AI 产品化大有可为。以前大家觉得模型就是产品、你产品刚做完模型一更新就把你淹没;他现在的感觉是"这件事情越来越不对"——Cursor、Perplexity 都证明了深度产品化是赢的。Perplexity 的 pitch deck 最后一页合起来写了两句:"Devil in the details" + "人们总是低估 wrapper"。投资人总问 Joe "你的壁垒是什么?"——

我的壁垒就是我的"人日"。我花了多少心思在这些工程化的产品化 detail 里边。这些 secret sauce 不是底层革命性大技术,但是工程化小技术——你要做我这事儿,OK,那你也做三五年再做这些东西。

术语
Wrapper
"套壳"。在大模型 API 上包装一层产品界面的 AI 创业公司。常被认为无壁垒,Joe 和 Perplexity 都在反驳这件事。
Secret Sauce
独门秘方。产品深处那些你讲不清但用户感受得到的细节。
人日
人力工时单位。Joe 拿它当壁垒——积累的工程化人日不是钱能立刻抹平的。
35
数字与结尾:回到本质

最终成绩:3 个月月收入 8 万美金 → 80 万美金,10 倍,跻身中国 AI 创业公司千万美金 ARR 第一梯队。batch 里另一个团队也涨了 10 倍,还有几家 3–5 倍。Joe 的结论呼应了 Airbnb 的 founder mode 和 Musk 的 nano-management——

硅谷越来越流行 micro management。你要做一件事情,这件事情的关键症结是什么,你把它搞定。回到阳光、空气和水。

术语
Founder Mode
Paul Graham 2024 年文章提出,反对职业经理人式 delegation,主张创始人深度介入细节。
Nano Management
Elon Musk 式的比 micro 还 micro 的介入——和 HR 一起住在 Twitter 办公室几个通宵。