OpenAI：从“会聊天的机器人”到改变世界的公司_大白话聊透人工智能_巴蜀魔幻侠

- 对话数据：比如以前人们和其他AI聊天的记录、公开的论坛对话（比如 Reddit 上的帖子），用来教AI“怎么聊天”。

收集来的数据有多少？说出来你可能不信：训练GPT-3（ChatGPT的前一代）时，用了大概45TB的数据——相当于把10万部电影的文字内容，或者1000亿页小说，全部塞进AI的“大脑”里。

但这些数据不是“直接用”的，还得“洗菜”：比如去掉脏话、错误信息（比如“地球是平的”这种谣言）、重复内容（比如网上反复转载的同一篇文章），不然AI学了坏东西，就会“说胡话”。这一步很枯燥，但很重要——就像你买菜回来，得把烂叶子摘掉、把泥土洗干净，不然做出来的饭会难吃。

第二步：“做饭”——用超级电脑“炒”出AI模型

食材准备好，接下来就是“做饭”——这一步是OpenAI最核心的技术，也是最烧钱的地方。

这里的“锅”，就是“超级电脑”：OpenAI用的是微软Azure的云服务器，里面有上万颗“GPU芯片”（相当于电脑的“大脑”）。这些芯片同时工作，才能处理几十TB的数据——你可以理解成“用1000口锅同时炒菜”，速度快，但电费和硬件费也贵得吓人。

这里的“菜谱”，就是“算法”：简单说，就是告诉AI“怎么从数据里学知识”。比如，AI看到“猫”这个词，算法会让它记住“猫有四条腿、会喵喵叫、喜欢吃鱼”；看到“今天天气很好，我想去公园”这句话，算法会让它明白“‘天气好’是‘去公园’的原因”——相当于教AI“怎么理解文字的意思，怎么组织语言”。

这个“做饭”的过程，叫“训练模型”。训练一次GPT-3，大概要花几个星期，电费就得几千万美金；训练GPT-4，成本更高，有人估算得几亿美金——这也是为啥只有微软这样的大公司，才能撑得起OpenAI的研发。

而且“做饭”不是一次就能成功的：比如第一次训练出来的AI，可能会“答非所问”（你问“今天吃啥”，它答“地球是圆的”），这时候工程师就得调整“菜谱”（改算法），再重新“炒一次”（重新训练），有时候得反复几十次，才能让AI“说话正常”。

第三步：“试吃”——让人类教AI“怎么说话更得体”

饭做好了，得有人试吃，看看咸不咸、辣不辣；AI训练好了，也得有人“试聊”，教它“怎么说话更得体”——这一步叫“人类反馈强化学习（RLHF）”，说穿了就是“让人类当AI的老师”。

具体怎么做？OpenAI会找一群“标注员”（普通人也能做，只要通过考核），让他们跟AI聊天，然后给AI的回答打分：

- 如果AI回答得好（比如你问“怎么缓解焦虑”，AI说“可以试试深呼吸、听音乐，要是严重的话建议看医生”），就给高分；

- 如果AI回答得不好（比如你问“怎么缓解焦虑”，AI说“别焦虑，焦虑没用”），就给低分，还得告诉AI“为啥不好，应该怎么改”。

然后OpenAI会把这些“打分数据”再喂给AI，让AI学习“什么样的回答更受欢迎”——相当于你试吃后说“太咸了，下次少放盐”，厨师下次就会调整。

这一步虽然“技术含量不高”，但很关键：比如早期的AI，可能会说脏话、传播谣言，经过人类的“打分调教”后，它会慢慢学会“说文明话、说正确的话”；再比如，你让AI“推荐电影”，早期的AI可能只推荐老电影，但经过人类反馈后，它会知道“现在的人更喜欢看新电影”，推荐的内容就更贴合需求。

就这么三步：收集数据（买菜）、训练模型（做饭）、人类反馈（试吃），OpenAI花了8年，才从GPT-1做到GPT-4，最终搞出了火遍全球的ChatGPT。

四、OpenAI跟咱们普通人有啥关系？这些影响已经在发生

可能有人会说：“OpenAI是大公司，ChatGPT是高科技，跟我这种普通人有啥关系？”其实不然——它已经在悄悄改变咱们的工作、学习和生活，只是你可能没注意到。

1. 工作：不是“取代人”，而是“帮人省时间”

很多人怕“AI抢工作”，比如“文案被ChatGPT取代”“程序员被AI编代码取代”——但实际情况是，AI更多是“帮人干活，不是抢人饭碗”。

举几个例子：

- 做文案的：以前写一篇“产品推广文案”，得查资料、想标题、改内容，可能要花一下午；现在用ChatGPT，你说“帮我写一篇‘无线耳机’的推广文案，突出‘续航长、音质好’，适合年轻人”，它5分钟就能写出3个版本，你再改改细节，半小时就能搞定——省下来的时间，你可以去做更有创意的事（比如策划营销活动）。

这章没有结束，请点击下一页继续阅读！

喜欢大白话聊透人工智能请大家收藏：(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。