- A+
Sora 的出现,再次证明了 OpenAI 试图让计算机去模拟真实物理世界的野心,以及它对于自身技术路线的坚持。从 OpenAI 发布的 Sora 的技术报告中,我们可以看到很多 OpenAI 对于过往大语言模型训练成功经验的复用。
从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI 可以说成功跑通了 AGI 的所有技术栈,为什么是 OpenAI 而不是谷歌、Meta?
加州大学伯克利分校 (UC Berkeley) 计算机科学 PHD、知乎作者 SIY.Z 从技术实现上分析了 Sora 成功的部分原因,以及从商业和技术趋势上分析了 OpenAI 能跑通全部技术栈的原因,并且尝试预测了 OpenAI 下一步的进展,Founder Park 授权转载,并进行了部分删减。
01、Sora 的技术分析:借鉴了 LLM 的成功经验
Sora 多么牛逼多么真实之类的就不多谈了,只用一句话就能概括:随便拿视频中的一帧出来,效果都不亚于 Dalle-3 精心生成一张图片,而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且 Sora 本身其实也可以做图片生成,只是大材小用了。
如果限制必须用一个词来展现 OpenAI 的最核心的技术,我觉得便是 scaling law——即怎么样保证模型越大,数据越多,效果就越好。Sora 也不例外。一句话概括 Sora 的贡献,便是:在足量的数据,优质的标注,灵活的编码下,scaling law 在 transformer + diffusion model 的架构上继续成立。在 Sora 的技术报告*中可以看出,OpenAI 实现 scaling law 的想法其实很大程度上沿袭了大语言模型的经验。
* https://openai.com/research/video-generation-models-as-world-simulators
足量的数据
训练 Sora 用了多少数据?不出意外,OpenAI 在整个技术分析中一点都没有提数据的事情,这可太 CloseAI 了。但是鉴于内容的丰富性(比如甚至可以生成相当连贯一致的 Minecraft 游戏视频),我猜测很可能是大量的 YouTube 视频,同时也不排除有合成数据(比如 3D 渲染等)。未来可能用整个 YouTube 上的视频来训练视频生成模型,就和大家用 Common Crawl 训练大语言模型一样。
灵活的编码(visual patches)
在大语言模型的构建中,一个非常重要的部分便是它的 tokenizer。tokenizer 使得任何长度和内容的文本都能编码成语言模型可以直接处理(输入/输出)的对象,即 embeddings。embeddings 在 Sora 中的对应物称为 visual patches,tokenizer 对应的是 video compression network,应该是某种 convolutional VAEs (文章没有说明是不是 VQ-VAE)。
具体做法是用 video compression network (visual encoder) 首先将输入视频的时间和空间维度同时进行压缩,编码成一个和视频大小成正比的 3D visual patch array,然后再将它按照某种顺序展开成 1D array of patches,送入到 transformer model 中(具体方式应该是参考了 https://arxiv.org/abs/2212.09748)。这样带来了不少好处:
- 灵活的分辨率。Sora 可以生成 1920x1080p(横屏)- 1080x1920p(竖屏)之间任何形状的视频。这也让 OpenAI 可以在早期使用低分辨率的视频来试错。
- 生成的视频的边框更加合理。OpenAI 试过使用固定分辨率,这样带来一个很显然的问题——需要裁剪视频。这种数据的 bias 会被带入到模型中,促使模型生成很多内容在框外的视频。
优质的标注
和 DALL·E 3 一样,OpenAI 用内部工具(很可能基于 GPT4-v)给视频详尽的描述,提升了模型服从 prompt 的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是 OpenAI 的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:
(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的 prompt 了。
(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于 prompt 的理解和服从。
另外一个细节:这种详尽的描述会导致在使用时的 bias——用户的描述都相对较短。和 DALL·E 3 一样,OpenAI 用 GPT 来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。
除了文本以外,Sora 也支持图像或者视频作为 prompt,支持 SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作,比如生成一个首尾相连重复循环的视频。
Transformer + diffusion model 的架构
不算特别意外,OpenAI 使用了 transformer 作为主要架构,结合 diffusion model,幸好还不是端到端的 autoregressive 模型,否则太吓人了(不过这样一来,transformer 在自然语言处理,图像视频生成,语音合成(最近 amazon 的工作 BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data*),科学计算(AlphaFold,GraphCast)等最困难的领域都孤独求败了。
*https://arxiv.org/abs/2402.08093
Transformer 架构在图像分类等领域还没有占领绝对优势很难说是不是因为任务太简单了或者数据太少了)。我觉得使用 diffusion model 的主要原因是 diffusion model 能够生成非常精细的细节,且可以玩出各种有趣的操作(比如 SDEdit)。
架构上大概率参考了 Scalable Diffusion Models with Transformers*,这是 Sora 技术分析中引用的文章,Sora 部分透露出的细节和这篇文章比较吻合。Sora 这次再次验证了 Transformer 架构能够胜任 scaling law。
*https://arxiv.org/abs/2212.09748
涌现现象
OpenAI 每次提到 scaling law 时几乎都会伴随着 emerging properties,这次也不例外,有以下几点(其实这里放的视频才是真正和目前视频生成区别开的,具体什么意思不用多说一看便知):
1.保证良好的 3D 空间性质(视角变换,物体遮挡等的合理性)
2.时间上物体的连贯性(不会因为遮挡或者时间流逝改变物体原有状态)
3.模拟现实物理的交互
4.连数字世界都可以模拟(这个生成的 Minecraft 视频真的惊到我了,一开始我还以为是参考视频,没想到是生成的)
然后让我们看看 Sora 之前的很多视频生成模型的水平(因为太糟甚至成了梗),高下立判 (声音和古怪内容警告)。
Sora 的缺陷
一句话:还不足以完全模拟所有现实中的物理过程,比如流体动力学(不过如果这个可以看视频就准确模拟出来就太可怕了,都让人怀疑世界是虚拟的了):
一个真正的物理世界模型,估计给它放一段卫星云图视频,它就能把下面几天的气候变化给模拟出来,实现用视频生成模型预测天气,看股市曲线变化预测股价 lol,这样来说,OpenAI 要走的路还有很长。
02、OpenAI 的愿景是让 AI 理解世界
Sora 不止步于视频生成工具,它的背后是 OpenAI 的宏大愿景:开发出能够让计算机理解我们世界的算法和技术,而 OpenAI 认为最有可能的技术之一是生成模型 (generative model)。
OpenAI 的 blog 中对 Sora 的定位正是「作为世界模拟器的视频生成模型」。这里是 OpenAI 2016 (!) 年一篇文章的原话 (链接:https://openai.com/research/generative-models):
我们常常会忽略自己对世界的深刻理解:比如,你知道这个世界由三维空间构成,里面的物体能够移动、相撞、互动;人们可以行走、交谈、思考;动物能够觅食、飞翔、奔跑或吠叫;显示屏上能展示用语言编码的信息,比如天气状况、篮球比赛的胜者,或者 1970 年发生的事件。
这样庞大的信息量就摆在那里,而且很大程度上容易获得——不论是在由原子构成的物理世界,还是由数字构成的虚拟世界。挑战在于,我们需要开发出能够分析并理解这些海量数据的模型和算法。
生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型,我们首先会在某个领域收集大量的数据(想象一下,数以百万计的图片、文本或声音等),然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德·费曼的一句名言:
「我所无法创造的,我也不能理解。」(即:要真正理解一个事物,你需要去创造它)
这个方法的妙处在于,我们使用的神经网络作为生成模型,其参数的数量远远少于训练它们的数据量,这迫使模型必须发现并有效地吸收数据的精髓,以便能够创造出新的数据。
当年最先进的生成模型止步于 DCGAN,2016 年文章中的附图展示了当时的最先进效果:
这确实让人不得不相信 AGI 也许在 21 世纪确实可以实现。而对于 OpenAI,实现 AGI 的一个途径便是开发出能够让计算机理解我们世界的算法和技术(生成模型),Sora 是非常重要的一步,即作为世界模拟器的视频生成模型。
03、为什么 OpenAI 可以跑通所有 AGI 技术栈?
目标和商业模式明确
对于 OpenAI,目前的目标很明确:就是 all in AGI,一切研究围绕着探索通往 AGI 的路径。
而商业模式上也很简单:SaaS,直接给 API,接口设计内部自己决定,付多少钱用多少,不想用就不用,这样省去了很多产品设计,marketing,BD 的时间,伺候甲方的时间(有比较可靠的消息称即使 Microsoft 的 Copilot 等产品也是直接用的 API,没有花功夫做太多的定制),整个公司可以集中精力开发 AGI。
有人可能说:不是啊,OpenAI 不是还有 ChatGPT 的用户界面,手机端语音聊天,以及 GPTs 吗?但是仔细想想,这几个部分 OpenAI 可以说是「非常不用心」了。
比如 ChatGPT Plus 是怎么自动融合搜索,图片生成,代码调用等工具的?单独做了一套深度优化?不,答案是 OpenAI 给了一个巨大的 prompt,让模型自己去选。
OpenAI 是怎么和各种第三方插件结合的,是单独做了匹配和接口?不,答案是直接让这些 plugins 描述自己是什么,然后模型自己调用,至于调用得对不对那就是另外一件事情了。这里最典的是最近 OpenAI 怎么实现「记忆」的,给大家看看 OpenAI 的完整 prompt(李博杰提供的,每个人可以诱导 ChatGPT 说出这些,OpenAI 也不在乎):
You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture. Knowledge cutoff: 2023-04 Current date: 2024-02-15 Image input capabilities: Enabled Personality: v2# Tools ## bio The `bio` tool allows you to persist information across conversations. Address your message `to=bio` and write whatever information you want to remember. The information will appear in the model set context below in future conversations.
## dalle // Whenever a description of an image is given, create a prompt that dalle can use to generate the image and abide to the following policy: // 此处省略 1000 词
## browser You have the tool `browser`. Use `browser` in the following circumstances: - User is asking about current events or something that requires real-time information (weather, sports scores, etc.) - User is asking about some term you are totally unfamiliar with (it might be new) - User explicitly asks you to browse or provide links to references
// 此处省略 1000 词
## python When you send a message containing Python code to python, it will be executed in a stateful Jupyter notebook environment. python will respond with the output of the execution or time out after 60.0 seconds. The drive at '/mnt/data' can be used to save and persist user files. Internet access for this session is disabled. Do not make external web requests or API calls as they will fail.
## voice_mode // Voice mode functions are not available in text conversations. namespace voice_mode { } // namespace voice_mode
## Model Set Context 1. [2024-02-14]. Obtained PhD from Microsoft Research Asia and USTC in 2019. 2. [2024-02-14]. Running an early-stage AI startup since July 2023. 3. [2024-02-14]. Loves writing blogs, traveling and documenting everything. 4. [2024-02-15]. Experience in writing Python. 5. [2024-02-15]. Interested in digital extension of humanity. 6. [2024-02-15]. First met ChatGPT on Dec. 1st, 2023.
OpenAI 直接用 prompt 让 GPT-4 调用 bio 这个工具记录需要记忆的内容(「to=xxx」是调用内部工具的语法,比如"to=python"是 GPT 调用 code interpreter 的方式)。然后每次新的对话开始时,在 prompt 的最后直接加上所有之前的记录的内容(## Model Set Context)。
就是这么简单粗暴。
GPTs 怎么做的?其实很大程度就是 OpenAI 的 Assistant API 加个简单得有点简陋的前端。(PS:现在有了 OpenAI Assistant API 后,你发现加个 UI 就可以很轻松的复刻 OpenAI 上线的大部分功能。)
那么语音对话呢?
你会发现就是换了一个 prompt,告诉 GPT 尽量生成短的内容,不要轻易生成列表和代码。语音合成用 TTS API,识别用 whisper API(可能有针对上下文的优化),结束。
这些选择看上去非常暴力,而且会给 OpenAI 增加开销(长的 prompt 会明显增大开销),但是 OpenAI 仍然选择这么做,因为这让 OpenAI 将大部分精力都花在模型本身的研发上,同时这也是 OpenAI 的方法论的极致体现,我们下面会提到。这种方法论让 OpenAI 追求一个大的通用的模型,避免一切定制和特化,就像最近 Sam 说的一样,希望 GPT-5 的出现能让模型微调失去意义;这样 OpenAI 就变成了完完全全的 SaaS 服务。
方法论明确
OpenAI 的方法论是通往 AGI 的方法论。这个方法论有着非常清晰的逻辑结构,和非常明确的推论。我们甚至可以用公理化的方式来描述它,怎么说呢,感觉上有一种宿命感,。
这套方法论的大厦构建于以下几个「公理」(打引号是因为它们不是真正的「公理」,更多是经验规律,但是在 AGI 方法论中,它们起到了公理的作用):
公理 1: The bitter lesson*。
我认为所有做 AI 的人都应该熟读这篇文章。「The bitter lesson」说的事情是,长期来看,AI 领域所有的奇技淫巧都比不过强大的算力夹持的通用的 AI 算法(这里「强大的算力」隐含了大量的训练数据和大模型)。某种意义上,强大的算力加持的通用的 AI 算法才是 AGI 路径的正道,才是 AI 技术真正进步的方向。从逻辑主义,到专家系统,到 SVM 等核方法,到深度神经网络,再到现在的大语音模型,莫不过此。
*www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf
公理 2: Scaling Law。
这条公理说了,一旦选择了良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法,那么你就能找到一套通用规律,保证数据越多,模型越大,效果越好。而且这套规律稳定到了可以在训练模型之前就能预知它的效果:
如果说 公理 1 The bitter lesson 是 AGI 的必要条件——大模型,大算力,大数据,那么公理 2 Scaling Law 就是 AGI 充分条件,即我们能找到一套算法,稳定的保证大模型,大算力,大数据导致更好的结果,甚至能预测未来。
而具体来谈,就是我们之前说的「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」,在 GPT 和 Sora 中都有相应的内容:
- 在 GPT 中,良好且通用的数据表示,是 tokenizer 带来的 embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是 unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的 transformers + autoregressive loss。
- 在 Sora 中,良好且通用的数据表示,是 video compress network 带来的 visual patch。良好且通用的数据标注是 OpenAI 自己的标注器给视频详细的描述(很可能是 GPT-vision)。良好且通用的算法也是大家熟知的 transformers + diffusion
「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」同时也为检测 scaling law 做好了准备,因为你总是可以现在更小规模的模型和数据上检测算法的效果,而不用大幅更改算法。比如 GPT1,2,3 这几代的迭代路径,以及 Sora 中 OpenAI 明确提到 visual patch 使得他们用完全一样的算法在更小规模的数据上测试。
公理 3: Emerging properties。
这条公理其实是一条检验公理:我怎么知道 scaling law 带来「质变」,而不仅仅是「量变」?答案是:你会发现,随着 scaling law 的进行,你的模型突然就能稳定掌握之前不能掌握的能力,而且这是所有人能够直观体验到的。
比如 GPT-4 相比于 GPT-3.5,可以完成明显更复杂的任务,比如写一个 26 行诗来证明素数是无限的,每行开头必须是从 A 到 Z。比如 Sora 相对于之前的模型,它的时空一致性,以及对现实中物理规律的初步掌握。没有 Emerging properties,我们很难直观感觉到突破性的变化,很难感知「我们真的向 AGI 前进了一步」,或者是「我们跑通了一个技术栈」。
从上面的公理中,我们就可以理解 OpenAI 的各种决策了,并且可以预见 OpenAI 未来的行为。
推论 1:世界模型。
大量数据从哪里来?什么东西能够产生最多的数据?AGI 需要什么样的数据才能通用地处理世界上的一切事情?答案就是:世界本身。世界本身产生最多的数据(或者极端一点,世界就是数据),而世界产生的数据,也是 AGI 需要的数据的最小集合,因为我们也只需要或者只能让 AGI 处理这个世界的事情。可以预见,OpenAI 未来还会执着于持续获得或者构造数据。
推论 2:世界生成模型。
要最有效的利用数据,我们需要最困难的,需要最多数据,且能利用所有数据的任务。这样的任务可能只有一个:模拟和生成整个世界(人类所有的智能只是一小块)。因此 OpenAI 需要做生成模型,并且是能够模拟和生成物理世界的模型,通过生成这个世界,实现对世界的理解。最近火爆的 Sora 便是其中之一。这个想法也和费曼的名言对应:「我不能创造的,我也不能真正理解」。可以预见,OpenAI 未来还会在更多的模态和数据上去做生成模型。
推论 3:通用模型。
通用模型还是专用模型能用到更多数据?显然是通用模型。而通用模型也减少了 OpenAI 的技术栈,因为一个模型能解决更多问题。这也导致之前提到的 OpenAI 解决各种问题时更倾向于用同一种模型,而不是做非常多不同的定制。可以预见,OpenAI 未来可能会继续走通用模型的道路,降低 finetuning 等特化的需求,继续增加模型的 context length。
推论 4:用一个模型为另一个模型提供标注。
由于当前技术限制,OpenAI 仍然无法用一个模型完成所有的任务,这样一个的模型收到数据就变少了。然而,我们可以用一个模型给另一个模型提供标注的形式,来间接实现数据供给。OpenAI 的 Dall E 和 Sora 都用到了大量可能来自于 GPT vision 的数据标注。这样 OpenAI 的各个技术栈都可以连通起来。可以预见,OpenAI 未来可能会继续加强各个模型的连接,比如将来用 Sora 反向给 GPT vision 给数据都是可能的;用一个已有模型去构造更多数据也会是一个重要的方向(比如 backtranslation,data distillation 等等)。
推论 5:Transformer 架构。
我们需要一种能够并行处理大量数据吞吐,且满足 scaling law 的架构。transformer 架构充分证实它在各个模态和技术栈的优势,特别在复杂任务中,因而被 OpenAI 广泛使用。使用同样一个架构的好处在于可以复用模型的参数(比如 tokenizer,embeddings,以及部分权重)来 bootstrap 不同技术栈的训练,以及可以用一套 infra 框架训练不同的模型。可以预见,将来新的模型如果要取代传统的 transformer 架构,还需要通过 scaling law 的检验。
推论 6:稀疏模型。
模型越大,性能越好,但是推理的成本也越高,这看上去是个死结。但是我们可以使用稀疏激活的方式,在推理时降低实际的参数量,从而在训练中使用更多参数的同时,降低推理的成本。Mixture-of-Experts 就是常用的方法之一,被 OpenAI 采用,从而继续 scale 模型的大小。未来稀疏化仍会是一个重要的课题,目前即使 Mixture-of-Experts 的稀疏也会造成推理性能的损失,尚不清楚稀疏化的极限在何处。
推论 7:算力是瓶颈。
最终卡 OpenAI 脖子的是算力。大算力系统的构建也是 OpenAI 打通各个技术栈的底气。有人可能认为,高质量文本是有限的,因此实际上模型大小有个极限。但是以世界模型的角度来考虑,OpenAI 现在用的数据仍然是冰山一角,更不用说 Q*等方法或许可以以间接方式创造数据。比如最近 OpenAI GPT-4-Turbo,作为一个 distillation 模型,在很多评测上都超过原来的模型,就是一个例证。
直到目前,作为局外人仍然看不到 scaling law 的尽头。而且即使不开发任何新的模型,OpenAI 离「用 GPT-4 服务所有人」的目标仍然很远。所以算力在可见的未来都是一个巨大的瓶颈。这也可以理解 Sam 为何有「7 万亿重构芯片产业」的想法了。可以预见,OpenAI 可能在未来在芯片以及整个 AI Infra 方面尝试更多的自研和垂直集成。
总结来看,OpenAI 采取的商业模式以及其对于 AGI 的信奉、系统性的方法论以及积极的尝试,都在推动他们朝着实现通用人工智能的目标前进,实现了一种可以跑通所有 AGI 技术栈的模式,而这一点,是 OpenAI 能在众多研究机构和公司中脱颖而出的重要因素。
未来,OpenAI 可能继续朝着商业化的道路前进,并在世界模型、模型标注、通用模型、模型架构、稀疏模型数据扩充等方面进行更深入的探索和实践。同时,OpenAI 也会持续关注和应对算力带来的挑战,寻找突破算力瓶颈的解决之道。
本文是全系列中第58 / 204篇:chatGPT
- ChatGPT引发AI人才战,大厂点名“就要OpenAI的华人,薪资不设限”
- OpenAI 再丢“王炸”:ChatGPT “封印”解除,能联网、搜索了!
- 重磅!微软开源Deep Speed Chat,人人拥有ChatGPT!
- ChatGPT流量见顶,AI革命中道崩殂?或许是OpenAI在下一盘大棋
- 当大厂程序员已开始用AI写代码 人类会被AIGC淘汰吗?
- 苹果AR眼镜跳票,国货能否异军突起?
- ChatGPT获得“正经编制”,国际预科生写论文用它不算作弊!
- 中国版ChatGPT项目“文心一言”将于3月面世,百度能否趁势“狂飙”?
- 微软AI全家桶上新啦!GPT-4进军程序员大本营GitHub
- 人工智能会取代人类主宰战场吗?从ChatGPT看人工智能的军事应用
- 知乎CEO周源:密切关注ChatGPT发展,AI能让内容更快推广
- 不只是聊天机器人:一文梳理 ChatGPT 带来的真正影响
- 记者试用新 Bing 后感慨:搜索从此不一样了
- 关于ChatGPT,黄仁勋和OpenAI联合创始人进行了一场“炉边谈话”
- 欧盟委员会对 ChatGPT 的最新监管方向
- ChatGPT-4 本周降临:它将如何影响 Web3?
- 旧金山出现“脑谷”,ChatGPT掀起美国初创企业AI热潮
- 小冰CEO李笛:“按ChatGPT模式做AI,我们一天成本要3亿”
- ChatGPT之父撰文:《万物摩尔定律》出现,这场革命将创造惊人的财富
- AI搜索大战打响!微软官宣ChatGPT引入Bing 生成式AI能否帮助巨头走出泥潭?
- 如何投出一个百亿美金的 ChatGPT 独角兽
- ChatGPT引爆新一轮科技军备赛
- AIGC生成图像加速度,百亿赛道将开启
- 国产ChatGPT扎堆,又是一场元宇宙式狂欢?
- 美国宾州大学教授体验 Bing AI 有感:生成式 AI 的改进速度超乎预料,但我们还没准备好
- ChatGPT“变现”在即,哪些法律风险不容忽视?
- ChatGPT开始被“疯狂吐槽”了
- 市值=2个茅台=5个英特尔,ChatGPT浪潮下英伟达“赢麻了”
- 微软“核弹级”更新:ChatGPT亮相Bing搜索和浏览器,今天上线,免费使用
- 元宇宙规模化商用仍未落地,ChatGPT或难续写新故事
- 独游制作人都在怎样用AI辅助开发游戏?
- 放下骄傲!微软是如何豪赌OpenAI的
- ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
- 卖账号、赚打赏,他们用 ChatGPT 搞钱
- ChatGPT来袭,元宇宙将迎新契机?
- 拥抱人工智能!微软将在Azure云服务中加入AI机器人ChatGPT
- ChatGPT“狂飙”:风浪越大,鱼越贵
- 没有对标ChatGPT产品,苹果内部AI峰会被指更像“团建”
- 为了 ChatGPT,微软抛弃元宇宙?
- AIGC制作的“视觉大片”走红!耗时仅3天,首批玩家吃到“红利”了
- 五个星期“周游”全球22国 “ChatGPT之父”究竟收获了什么?
- Roblox CTO 谈生成式 AI(Generative AI):彻底改变平台创作,让所有用户都成为创作者
- 从作弊工具到教学利器:教育工作者对生成式 AI 的观念转型
- 麻省理工称AI改变教育,日本拟制定ChatGPT学校运用指南
- 6天,50万!ChatGPT App 下载量远超美国 iOS 新应用的 99.99%
- ChatGPT版微信个人号搭建流程
- ChatGPT成科技圈的“新贵”,谁还记得元宇宙?
- OpenAI联合创始人:自动驾驶和VR都是“歧途” AI智能体才是未来
- 用户生成收藏(UGC 2.0)崛起:创作者正从四大领域获得赋能
- GPT-5年底上线?初创公司Runway CEO再爆料:OpenAI员工相信GPT-5有望成AGI
- 微信接入ChatGPT,使用Node+ChatGPT+Wechaty做一个微信机器人
- OpenAI造就硅谷新“黑帮”:ChatGPT爆火背后的神秘大佬、技术版图和资本故事
- 取代岗位 vs 创造就业:AI 会是“白领”终结者吗?
- ChatGPT后下一个AI爆款应用是什么?硅谷All In“自动AI智能体”
- 人类生成 or 机器生成?ChatGPT 引发了一场真假辩论
- 盖茨再谈ChatGPT:AI能提高效率,但要考虑边界在哪
- 第一批因ChatGPT坐牢的人,已经上路了
- GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
- ChatGPT:是平台的缪斯还是黑客的「MOSS」?
- 11款值得收藏的 AI 工具
- 搜索大变天!谷歌推出Bard对抗ChatGPT,打响保卫战
- 突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能
- 在微信上搭建ChatGpt机器人
- 重磅!GPT-4 API,全面开放使用!
- 开局打爆谷歌,微软ChatGPT版必应亲测:强到发指!
- 美国监管机构首次正式调查ChatGPT!FTC朝OpenAI“开火”
- ChatGPT 限流,生成式大模型触碰算力天花板?
- OpenAI给科技行业敲响警钟,中国必须要有自主“大模型”
- chatGPT本地化搭建服务,一键免费部署你的私人 ChatGPT 网页应用。
- ChatGPT:本地环境搭建chatgpt、调试运行、接口API调用
- 复旦教授肖仰华:ChatGPT代码解释器是里程碑意义的成就
- 不写代码、靠“玩”ChatGPT年入百万,提示工程师正变成硅谷新宠
- 将ChatGPT集成在汽车中,全球首个车载语音GPT发布!
- 不做 ChatGPT killer,Meta 的大型语言模型 LLaMA 或派上更大用场
- 砸下677亿,微软盯上ChatGPT
- ChatGPT爆火的冷思考:盈利难题与治理挑战
- 数字媒体怎么用ChatGPT赚钱?Buzzfeed推了款收费的测试产品
- ChatGPT访问量增速下滑引担忧,专家提醒警惕泡沫化风险
- 马斯克要告微软,拒绝AI训练“白嫖”数据
- a16z:巨额计算成本压力下,不同企业该如何选择 AI 基础设施?
- AI大模型“无米下锅”?合成数据多重优势凸显,硅谷巨头正加速布局
- 谁在反对ChatGPT?
- 更快、更便宜!Sam Altman最新访谈透露OpenAI下一步计划,目前GPU短缺是最大瓶颈
- 竞品还在追赶,OpenAI 用 GPT-4 飚赢自己
- 我用 ChatGPT 搞钱,月赚 10 万
- 小冰CEO李笛:别神话ChatGPT,创业公司还玩不转
- 关于GTP-4,这是14个被忽略的惊人细节!
- OpenAI大动作!ChatGPT开始联网 一夜之间从工具进化成平台?
- 如何用ChatGPT帮你投资?这家美国平台打造出一款神奇“AI投顾”……
- chatgpt是什么?可以提供哪些服务,用户该怎样使用chatgpt(附Chat GPT注册教程)
- 大厂火拼ChatGPT
- ChatGPT这么牛,我们应该如何兼顾发展和治理?
- AIGC如何成为元宇宙神助攻?
- 从GPT-4、文心一言再到Copilot,AIGC的长期价值被逐渐确立
- ChatGPT可能马上取代你!这是它能做的十个工作
- 生成 AI 的下一步发展是多模型吗?
- 麦肯锡:ChatGPT 等生成式 AI 技术将如何改变企业?
- 前Google科学家李志飞劝各位冷静点:通用大模型不一定适合所有人,包括大佬们
- 王兴“会师”王慧文,要联手造ChatGPT版“美团”?
- 又一中文版ChatGPT!李开复宣布筹组AI新公司“Project Al 2.0”
- 资本观望,大厂入局,海外大模型血脉压制…… 国内AIGC创业者的机会在哪里?
- GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才
- ChatGPT 两个月引爆万亿新赛道,国内外有哪些 AI 玩家能突出重围?
- 疯狂三月:一场ChatGPT引发的千亿“钞”能力竞赛
- 一天现六个国产ChatGPT大模型,“百模大战”全面开打
- GPT-4震撼空降,谷歌「紧追」微软有点难
- ChatGPT热度再升级,AIGC的投资人开始关注“文生图”了
- 二次元迷失「AIGC」:第一批吃螃蟹的人,迷惘、失落还有阵痛
- ChatGPT杀疯了,两个月引爆千亿美金新赛道
- AIGC为中小游戏公司解困,也有人担心失业
- a16z:金融服务行业将采用生成式 AI 来实现 5 个目标
- Meta推出先进大型语言模型,下一个ChatGPT不远了?
- chatgpt对接微信全流程
- GPT-4来了!国内相关初创项目近30家,VC加紧奔赴AI淘金热
- 天下再无免费数据?“美版贴吧”向AI公司收取数据使用费
- AIGC应用持续升温,将给普通人生活带来哪些改变?
- ChatGPT之后,AIGC会如何革新内容创作?
- 第一批被AI抢走饭碗的人”:我们不该被嘲笑
- 谷歌慌了,超20亿投资ChatGPT竞品Anthropic对抗微软
- AIGC拯救虚拟偶像?
- ChatGPT与五巨头:AI新纪元谁最有优势?
- ChatGPT和AI正如何改变播客行业?
- GPT-4震惊四座,中国创业者激战“小模型”
- AIGC商业化,版权保护谁来管?
- 谷歌追赶微软ChatGPT计划曝光:让AI在产品中无所不在
- 动嘴就能写代码,GitHub 将 ChatGPT 引入 IDE,重磅发布 Copilot X!
- 行业观察:AI技术“狂奔”,但商业逻辑大于技术逻辑
- Meta宣布:再裁员10000人!取消5000个职位空缺
- 年薪百万,只需陪聊,ChatGPT 正在带起一种很新的职业
- 2023最新的Chatgpt微信机器人搭建教程【附免注册chatgpt账号】
- 尔等请入座,AI 新秀 AutoGPT 如何颠覆生产力
- 微软下个十年的想象力,藏在ChatGPT里
- AI“春晚”英伟达又甩王炸!ChatGPT专用GPU来了 还要赋能芯片制造
- AI会杀死“美图秀秀们”吗?
- ChatGPT 吃我饭,砸我碗
- ChatGPT持续“高烧”,再走一遍元宇宙的老路
- 大厂大模型:久违的一把手工程
- GPT-5暂时来不了,OpenAI悄然布局移动端
- 山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标
- 最新GPT-4在律考中击败90%人类,它到底强在哪?
- 多国拟发 ChatGPT 禁令,关“野兽”的笼子要来了?
- ChatGPT在一线城市火,元宇宙在二三线城市热
- 做了第一个ChatGPT .NET API聊天库
- ChatGPT 算力消耗惊人,能烧得起的中国公司寥寥无几
- 探讨 AI 在网络安全测试中的优势与挑战
- 与周鸿祎“深聊”ChatGPT:它会不会产生与人类为敌的想法?
- ChatGPT背后的算力博弈,中国企业亟待打破美国桎梏
- 这位「AI教父」怎么总炮轰ChatGPT?
- ChatGPT狂欢背后:别让科技新概念昙花一现
- 王慧文无心与李彦宏「斗法」
- YC爆发AIGC潮,100+项目完整盘点,AIGC有哪些创业方向?
- AI企业如何发展,“中国版chat GPT”给出了答案
- 【基于OpenAI的ChatGPT】搭建属于自己的微信聊天机器人(附带注册英国手机号码方式)
- ChatGPT热引发年薪千万高管辞职潮
- ChatGPT流量下滑10%,但真正的挑战不在这里
- 重磅突发!OpenAI正式推出多模态GPT-4
- 国内AI公司,靠ChatGPT逆袭?
- 王慧文创业“OpenAI”更多细节爆出,源码、真格或成“首位投资人”
- 基于ChatGPT的微信聊天机器人
- 谷歌“仓促”迎接 AI 大战,机器人 Bard“掉链子”股价大跌
- AI投入交易实战!2.5万名投资者跟着ChatGPT炒股
- ChatGPT 创始人和他疯狂的 Worldcoin 实验
- 首发ChatGPT课、AI共创游戏设计,网易试图抢跑AIGC红利
- 给数字人装上ChatGPT ?多家公司这样回应
- AI狂飙突进,人类在害怕什么?
- 10个实用的 ChatGPT 免费扩展!
- GPT-4如何引领科技前沿?盘点10大应用场景
- 给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?
- 中文在线又要大搞AIGC了,这次能翻身吗?
- 第一批投 AIGC 的 VC 开始后悔了
- GPT 创业四个月,收益几十块
- 微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
- 一文盘点帮助学生学习的 9 种 AI 工具
- ChatGPT爆火,带来哪些机会?
- 自主拆分任务的chatGPT版本autoGPT的用户前端化实现——agentGPT部署及配置全流程
- 马斯克这位前合伙人,从ChatGPT到WorldCoin,会给Web3带来惊喜吗?
- 使用OpenGPT(ChatGPT)搭建 QQ 机器人
- 叫停GPT-4后续AI大模型!马斯克、Bengio等人发出公开信,千人响应
- ChatGPT + Web3.0=去中心化人工智能
- ChatGPT 没让我失业,反而让我多打了几份工!
- 微软重磅更新:Windows引入AI助手,ChatGPT默认用必应搜索
- AI 大模型乃 ChatGPT 参数量三倍!谷歌聊天机器人推测试版,受益上市公司梳理
- ChatGPT 概念股爆炒要结束了?
- 外媒:微软将于下周发布大语言模型 GPT-4,多模态成为最大亮点
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作教程
- “一言”槽点满满,“千帆”下海收费
- 关于AI安全,OpenAI最新回应:没有人会为了尽快取得成功而“偷工减料”
- AI 杀入电商直播赛道,成本降低95%,主播薪资集体大降
- 争造第一个“国产ChatGPT”,大厂们拼了
- ChatGPT超级巨大漏洞,能看别人支付聊天内容,OpenAI公布技术细节
- 英国政府将打造“国家AI”,与ChatGPT竞争,初始投入仅“1亿英镑”
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理
- 字节跳动CEO:要深入学习理解GPT-4,思考结合场景创造价值
- 突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能
- 这些让人惊呼好用的神器背后,原来都是ChatGPT
- ChatGPT类产品不是法外之地!拜登政府:将打击有害AI商业行为
- 角逐国内金融GPT:大模型如何重新定义金融科技
- 颠覆历史!「ChatGPT搜索引擎」发布,微软市值一夜飙涨5450亿
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理【后续更新附加】
- GPT-4将在下周发布,必应日活破亿,谷歌还有招架之力吗?
- 狂飙的ChatGPT,为什么是OpenAI最先做出来?
- 马斯克“忌惮”的 ChatGPT,让人类更聪明还是更愚蠢?
- 他做了一个「ChatGPT 杀手」,a16z 抢着投
- 苹果禁用ChatGPT,为防机密泄露!大模型版Siri即将升级推出
- 我的微信
- 这是我的微信扫一扫
- 我的电报
- 这是我的电报扫一扫