- 对话数据:比如以前人们和其他AI聊天的记录、公开的论坛对话(比如 Reddit 上的帖子),用来教AI“怎么聊天”。
收集来的数据有多少?说出来你可能不信:训练GPT-3(ChatGPT的前一代)时,用了大概45TB的数据——相当于把10万部电影的文字内容,或者1000亿页小说,全部塞进AI的“大脑”里。
但这些数据不是“直接用”的,还得“洗菜”:比如去掉脏话、错误信息(比如“地球是平的”这种谣言)、重复内容(比如网上反复转载的同一篇文章),不然AI学了坏东西,就会“说胡话”。这一步很枯燥,但很重要——就像你买菜回来,得把烂叶子摘掉、把泥土洗干净,不然做出来的饭会难吃。
第二步:“做饭”——用超级电脑“炒”出AI模型
食材准备好,接下来就是“做饭”——这一步是OpenAI最核心的技术,也是最烧钱的地方。
这里的“锅”,就是“超级电脑”:OpenAI用的是微软Azure的云服务器,里面有上万颗“GPU芯片”(相当于电脑的“大脑”)。这些芯片同时工作,才能处理几十TB的数据——你可以理解成“用1000口锅同时炒菜”,速度快,但电费和硬件费也贵得吓人。
这里的“菜谱”,就是“算法”:简单说,就是告诉AI“怎么从数据里学知识”。比如,AI看到“猫”这个词,算法会让它记住“猫有四条腿、会喵喵叫、喜欢吃鱼”;看到“今天天气很好,我想去公园”这句话,算法会让它明白“‘天气好’是‘去公园’的原因”——相当于教AI“怎么理解文字的意思,怎么组织语言”。
这个“做饭”的过程,叫“训练模型”。训练一次GPT-3,大概要花几个星期,电费就得几千万美金;训练GPT-4,成本更高,有人估算得几亿美金——这也是为啥只有微软这样的大公司,才能撑得起OpenAI的研发。
而且“做饭”不是一次就能成功的:比如第一次训练出来的AI,可能会“答非所问”(你问“今天吃啥”,它答“地球是圆的”),这时候工程师就得调整“菜谱”(改算法),再重新“炒一次”(重新训练),有时候得反复几十次,才能让AI“说话正常”。
第三步:“试吃”——让人类教AI“怎么说话更得体”
饭做好了,得有人试吃,看看咸不咸、辣不辣;AI训练好了,也得有人“试聊”,教它“怎么说话更得体”——这一步叫“人类反馈强化学习(RLHF)”,说穿了就是“让人类当AI的老师”。
具体怎么做?OpenAI会找一群“标注员”(普通人也能做,只要通过考核),让他们跟AI聊天,然后给AI的回答打分:
- 如果AI回答得好(比如你问“怎么缓解焦虑”,AI说“可以试试深呼吸、听音乐,要是严重的话建议看医生”),就给高分;
- 如果AI回答得不好(比如你问“怎么缓解焦虑”,AI说“别焦虑,焦虑没用”),就给低分,还得告诉AI“为啥不好,应该怎么改”。
然后OpenAI会把这些“打分数据”再喂给AI,让AI学习“什么样的回答更受欢迎”——相当于你试吃后说“太咸了,下次少放盐”,厨师下次就会调整。
这一步虽然“技术含量不高”,但很关键:比如早期的AI,可能会说脏话、传播谣言,经过人类的“打分调教”后,它会慢慢学会“说文明话、说正确的话”;再比如,你让AI“推荐电影”,早期的AI可能只推荐老电影,但经过人类反馈后,它会知道“现在的人更喜欢看新电影”,推荐的内容就更贴合需求。
就这么三步:收集数据(买菜)、训练模型(做饭)、人类反馈(试吃),OpenAI花了8年,才从GPT-1做到GPT-4,最终搞出了火遍全球的ChatGPT。
四、OpenAI跟咱们普通人有啥关系?这些影响已经在发生
可能有人会说:“OpenAI是大公司,ChatGPT是高科技,跟我这种普通人有啥关系?”其实不然——它已经在悄悄改变咱们的工作、学习和生活,只是你可能没注意到。
1. 工作:不是“取代人”,而是“帮人省时间”
很多人怕“AI抢工作”,比如“文案被ChatGPT取代”“程序员被AI编代码取代”——但实际情况是,AI更多是“帮人干活,不是抢人饭碗”。
举几个例子:
- 做文案的:以前写一篇“产品推广文案”,得查资料、想标题、改内容,可能要花一下午;现在用ChatGPT,你说“帮我写一篇‘无线耳机’的推广文案,突出‘续航长、音质好’,适合年轻人”,它5分钟就能写出3个版本,你再改改细节,半小时就能搞定——省下来的时间,你可以去做更有创意的事(比如策划营销活动)。
这章没有结束,请点击下一页继续阅读!
喜欢大白话聊透人工智能请大家收藏:(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。