二、拆解Manus的“超能力”:它凭啥能自己干活?
Manus能做到“主动执行”,不是靠魔法,而是靠一套藏在背后的“硬核配置”。就像一辆能自动驾驶的汽车,得有雷达、摄像头、控制系统一起配合,Manus也有自己的“四大核心部件”,咱们一个个拆开来聊。
1. 第一部件:“超级大脑”——认知控制中枢
如果说Manus是个“AI员工”,那认知控制中枢就是它的“大脑”,负责理解需求、思考方案。但这个“大脑”比普通AI的脑子更聪明,因为它结合了两种能力:
一边是“语言理解”(像人类的语感)
它用了大语言模型(和GPT、文心一言的核心技术类似),能听懂你说的“人话”,哪怕你表达得含糊。比如你说“帮我整个适合带爸妈去日本的7天游,得有温泉还能吃海鲜”,它能立刻抓住几个关键信息:出行人是“你+爸妈”(可能需要考虑行程舒缓)、目的地“日本”、时长“7天”、需求“温泉+海鲜”,不会理解成“你自己去日本玩7天”。
另一边是“逻辑推理”(像人类的理性)
它还加了“知识图谱”技术,就像脑子里装了一张“逻辑地图”,能把零散的信息串起来,避免犯低级错误。比如在医疗诊断场景里,普通AI可能只看“发烧+咳嗽”就说是感冒,但Manus会结合“病人年龄65岁+有糖尿病史+咳嗽持续两周”这些信息,推理出可能是更复杂的情况,决策准确率能达到89.7%,比纯大模型方案高34个百分点[__LINK_ICON]。
简单说,这个“大脑”既能听懂你的话,又能像专业人士一样理性分析,不会“想当然”。
2. 第二部件:“灵敏感官”——多模态感知系统
人类干活得靠眼睛看、耳朵听,Manus也一样,它的“感官”就是多模态感知系统,能处理的不只是文字,还有图片、声音这些信息。
眼睛:能“看”懂画面
它的视觉模块用了ViT-22B模型,每秒能解析60帧画面,比人类的视觉反应还快。比如你给它发一张超市价签的照片,它能立刻认出上面的商品名、价格;要是给它一段工厂流水线的视频,它能找出哪个环节的零件放错了位置。
耳朵:能“听”清指令
听觉模块的语音识别率达到98.2%,比很多手机的语音助手还准。你不用打字,直接说“帮我查一下明天北京到上海的高铁票,上午9点左右出发”,它能精准抓住关键信息,不会把“9点”听成“7点”。
更牛的是“跨模态对齐”
就是它能把文字、图片、声音“打通”理解。比如你说“找一张和‘秋天的故宫角楼,阳光照在红墙上’差不多的图”,它能把你的文字描述和图片特征对应起来,准确找到你要的图;反过来,你给它一张猫咪的照片,让它“编一段猫咪晒太阳的可爱文案”,它也能立刻匹配场景写出来。
有了这些“感官”,Manus就不用只靠文字打交道了,像真人一样能看、能听,处理任务的范围一下子宽了很多。
3. 第三部件:“行动能力”——任务规划与执行系统
这是Manus最核心的“杀手锏”,也是它和普通AI的本质区别——普通AI只有“脑子”没有“手”,而Manus有一套能自己“动手干活”的系统,分两步把任务落地:
第一步:把复杂任务拆成“小事儿”(规划)
面对复杂任务,它会像项目经理一样做拆解。比如你让它“帮HR筛选25份应聘产品经理的简历,挑出匹配度最高的3个”,它会自动拆成这几步:
1. 先解压简历文件(如果是压缩包);
2. 逐个读取简历,提取关键信息:工作年限、是否做过产品经理、会用哪些工具(Axure、Figma等)、有没有成功案例;
3. 对照招聘要求给每个候选人打分(比如工作年限3年以上加20分,会Axure加15分);
4. 把分数排序,挑出前3名;
5. 生成带评分明细的Excel表格。
这种拆解不是瞎拆的,它用了“分层强化学习”和“蒙特卡洛树搜索”技术,能找到最高效的执行顺序,就像咱们干活前先列清单,确保不遗漏、不返工[__LINK_ICON]。
第二步:在“虚拟电脑”里自己操作(执行)
最神奇的是它的“执行”环节——它不是在你的电脑上瞎点,而是在云端的“沙盒虚拟机”里操作,相当于给它配了一台专属电脑,既不会影响你的设备,又能模拟真人的所有操作:
- 能打开浏览器:输入网址、搜东西、翻页面、点链接,甚至能处理简单的验证码(复杂的会提示你帮忙);
- 能用办公软件:打开Word写报告、用Excel做表格、用PPT排版,还会用快捷键;
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢大白话聊透人工智能请大家收藏:(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。