用过Midjourney或者DALL-E的人,大概都有过这种体验:图生成出来,七八成满意,但剩下那两三成怎么改都不对劲——改一处,整张图全变了,像在玩老虎机。
这正是ComfyUI看到的机会。这家做AI图像、视频、音频生成控制工具的创业公司,刚刚拿了3000万美元融资,估值冲到5亿美元。领投方是Craft Ventures,跟投方包括Pace Capital、Chemistry和TruArrow。
ComfyUI最早是个开源项目,2023年扩散模型刚起步时上线。那时候Midjourney和DALL-E还经常翻车——比如手指数量不对,六根手指、七根手指都是常事。ComfyUI的创始人自己做了一套模块化框架,让创作者能对生成过程的每一步都精确控制。
2024年底,ComfyUI拿了1900万美元A轮融资,资方包括Chemistry Ventures、Cursor Capital,以及Vercel创始人Guillermo Rauch。这次B轮融资金额更大,说明资本认可这个方向。
「你用ChatGPT或者Midjourney这类基于提示词的工具,它只能帮你做到60%到80%,」ComfyUI联合创始人兼CEO Yoland Yan接受TechCrunch采访时说,「但剩下那20%,你得像玩老虎机一样反复试。」
他把调提示词比作进赌场——小改一个词,可能把之前满意的地方也改掉了。这种「抽盲盒」感,对于需要精雕细琢的商业创作来说,简直是噩梦。
ComfyUI的解法是节点式工作流。你可以把AI生成图片理解成一条流水线:输入 prompt → 模型生成 → 输出结果。传统工具只给你最终结果,而ComfyUI让你能介入每一步——调整参数、换模型、局部修改、叠加风格,全部可视化操作。
简单说,Midjourney是「一键生成」,ComfyUI是「分步组装」。前者适合随便玩玩,后者适合认真干活。
这套思路被证明有市场。ComfyUI从开源项目起家,积累了大批专业创作者用户,最终做成商业公司。它的客户包括设计师、影视工作室、广告公司——也就是对AI生成内容有精度要求的那批人。
这背后有个趋势:AI生成工具正在从「玩具」变成「工具」。早期大家图新鲜,随便生成一张图就发朋友圈。现在专业创作者要用AI变现,就得抠细节、改细节。Midjourney们用自然语言交互降低了门槛,但天花板也低;ComfyUI们用复杂换精确,代表另一条路。
两条路都在跑,谁先摸到天花板,还不好说。但有一点可以确定:能用AI赚钱的人,正在变得更挑。