我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是如何取得如此巨大的领先优势的。尽管谷歌、脸书和亚马逊都屯着人才、资金和资源,但它们仍无法与OpenAI相提并论。按估值计算,谷歌一年的利润足以收购OpenAI,然而OpenAI仍频频抢先。

目前,OpenAI似乎是离通用人工智能(AGI)最近的公司。其产品具有极高的通用性,就像许多经过精心调整的垂直模型声称能在某些特定领域击败GPT-4一样。这种定向刷分的行为固然有其事实根据,但最终体验来看,只有ChatGPT能够与用户进行全程自然对话。

我仍然认为Midjourney的图像生成艺术独步一时,但DALL·E-3显然与Midjourney这位画家的训练方向和目标不同。它更注重于文字逻辑,用简洁而准确的绘画展现AI对世界的理解,因此在生产力方面,它不如Midjourney有价值,但非常适合用于提升ChatGPT的能力。足够用了,而且经济实惠。

虽然还未使用Sora,但从目前情况看,它的通用性可能会是其优势。未来市场对于两步抽卡生成视频的模式可能会变得越来越狭窄——先抽卡生成图像,再转换为视频的方式容错率太低了——越来越多的AI视频产品也不再接受第三方图片,因为没有介入图片生成的过程,需要重新理解图片才能转换,这是一条错误的道路。

要么像Sora一样,直接合并抽卡步骤,使用文本逻辑一次性生成视频,保持低成本,必定能够建立起正向循环;要么像Midjourney一样,朝着封闭式生态的方向努力,发挥图像训练的优势延伸至视频领域。而Runway和Pika这类接受各种视频工具的平台,将面临巨大挑战,很难维持付费模式。

另外,字节跳动果断地将抖音的CEO调任剪映一职,这举动着实令人印象深刻。梁茹波在年度大会上才刚刚反省公司内部直到2023年才开始讨论GPT相关议题,没过几天,核心产品负责人就直接负责了一款工具产品,这样的执行效率在大公司中实属罕见。而Sora的强劲反应及时地证明了字节跳动并非无的放矢,其前瞻性表现十分出色。

2024年将会是精彩的一年。当然,英伟达也将继续取得胜利⋯⋯

发表回复

后才能键入