AI Agent 云端浏览器
manus是云计算产品
Peak(季逸超) – 文末播客采访
复制这个链接打开 https://manus.im/invitation/J64VYLQYRE9Q0 可额外获得Manus 500 积分(Manus 的每次使用需要消耗积分)
一、产品背景
Peak 早些年除了做机器学习,自然语言处理他就做过第一个浏览器,熟悉Chrome内核。
⬇️
2024年中6月份的时候,浏览器已经在团队中已经产出做成了,这是他的第二个浏览器。
但心中一直有一个疑惑真的可行吗? 恰巧 arc 浏览器给了答案:“我甚至没有办法去说服我身边的人Chrome换成arc”。
他也讨论到了关于做模型还是做应用?我相信做应用的公司最终都会有做模型的能力,认为应用可以优于模型先行。(同时也聊到喜欢的国内三家AI公司,千问,deepseek还有一家没听清,英文单词)
⬇️
田野观察:发现公司很多非程序员员工在 IDE 里使用 cursor,如数据分析
当一个产品被“非目标用户”高频使用,往往意味着要么他们在误用(很快流失),要么它触到了一个更大的缺口(会催生新形态),是一个很明显的不一样的用户场景。
- 用户群体
- 认为 cursor 等 Agent 应该跑在云上,而非用户本地计算机,不占用用户经理(目前大多数agent步骤如写文件等都需要与用户本地交互)
AI Agent 云端浏览器
24年9月份开始研发,25年1月份已经做完。
⬇️
最基础的是简单任务做成,如点一份外卖,但有时简单任务人的判断要比AI判断的更快。所以更重要的是保证长任务,一种是复杂度高的,一种是时间长的。
二、集成
1、MCP
Gmail, Notion, Stripe, HubSpot, Slack, Google Calendar, Hugging Face, Google Drive, GitHub
用例: 多应用工作流、自动化数据同步、跨平台任务执行
2、Zapier
3、Slack
4、API
三、功能
1、图片
Design View 不是一个独立的工具;
它是 Manus Agent 的集成功能,支持复杂、多步骤的视觉工作流程。关键区别在于能够对现有图像进行精确的、上下文相关的编辑,而不是每次输入提示词时都从头开始重新生成新图像。
Design View 由 Google 的 Nano Banana Pro 提供支持,这是一款尖端的图像生成模型 Nano Banana Pro 是Google DeepMind推出的新旗舰模型,专门用于高保真图像生成和编辑。该模型官方名称为Gemini 3 Pro Image,据报道于2025年11月20日正式发布。
早先生成图片不满意,则会修改或新增整段提示词中的部分描述,然后整段提示词重新提交后生成,相当于从头开始,效率较低。
| Design View | 豆包(Android APP) | |
|---|---|---|
| 精确度& 二次编辑 | 获得初始图像后,您可以使用标记工具进行精确编辑![]() ![]() | 仅能通过提示词进行描述修改,对于部分细节,很难精确定位到并修改成功,所以可能需要通过美图秀秀等图片美化手动处理。![]() |
| 上下文相关 | 无需重复提示词或重新上传图片✅ | 无需重复提示词或重新上传图片✅ |
2、制作ppt
Manus 可以使用我的公司模板吗?
可以。上传您的 .pptx 模板文件。
如果我需要更改怎么办?
要求 Manus 通过对话进行更改,或直接编辑 PowerPoint 文件。
Manus 可以根据我的数据创建图表吗?
可以。上传您的数据(CSV、Excel),Manus 将创建适当的可视化效果。
帮我制作一个关于小米su7产品介绍的ppt,大概10页左右。 要求: 1. 色彩分明; 2. 有一定动画特效; 3. 有一定数据支撑,如销量;
3、媒体
Manus 可处理多种媒体类型——生成图像、理解视频内容、创建语音输出以及转录言语。在您的工作流程中无缝结合文本、图像、视频和音频。
| 功能 | 作用 | QA | 示例用途 | |
| 图像生成 | 根据描述创建自定义图像 | Q:我可以生成特定尺寸的图像吗? A:指定尺寸:“生成一个 1920×1080 的图像…”或“用于 Instagram 的方形格式…” | 产品模型、插图、图表 | “生成一张图表,显示我们的客户旅程从 认知到购买的过程” |
| 图像理解 | 分析并提取图像中的信息 | 文档扫描、视觉分析 | “详细描述此图像中正在发生的事情” | |
| 视频理解 | 分析视频内容并提取见解 | Q:视频可以多长? A:Manus 可以处理长达数小时的视频。较长的视频需要更多时间。 | 会议记录、内容分析 | 详见下方测试 |
| 语音输出 | 将文本转换为自然语音 | 配音、音频内容 | “将这篇博客文章转换为具有自然语音旁白的音频文件” | |
| 语音转文本 | 将音频转录为文本 | Q:哪些音频格式可用于转录? A:MP3、WAV、M4A、WEBM 和大多数常见的音频格式。 | 会议纪要、访谈记录 | “转录这 20 个客户支持电话并识别 提及的常见问题” |
针对其中的「视频理解」进行了尝试,过程如下:
观察这段视频,帮我完成以下事情: 1. 分析下这个视频都讲了什么内容? 2. 提取出一个视频的脚本大纲; 3. 分析哪些群体用户可能喜欢这个视频


下图为最终manus输出的分析报告(截图)
可以看出,视频理解效果还不错。
当然,manus更在意Agent垂直扩展,所以还可以组合功能使用,如「视频转博客」:
观看此产品演示视频,将其转录,提取关键功能,在重要时刻生成屏幕截图,并创建包含图像和文本的博客文章
4、数据分析
Manus 将原始数据文件转换为精美的可视化洞察,无需电子表格专业知识或手动创建图表。
上传您的数据,描述您想了解的内容,Manus 将处理分析、创建专业的视觉效果,并以您偏好的格式(幻灯片、报告、仪表板或网页)交付结果。

5、广泛研究
广泛研究是 Manus 处理涉及处理许多类似项目的任务的方法,例如分析 100 个产品、研究 50 家公司或生成 20 篇内容。广泛研究没有使用单个 AI Agent 按顺序处理项目,而是部署了数百个并行工作的独立 Agent。每个 Agent 都会收到自己专用的上下文,并独立处理一个项目。这种架构解决了上下文窗口限制问题,该限制会导致传统 AI 系统随着项目数量的增加而质量下降。
广泛研究采用了一种根本不同的架构:
- 任务分解:主 Agent 分析您的请求并将其分解为独立的子任务(例如,“研究公司 #1”、“研究公司 #2”等)
- 并行 Agent 部署:每个子任务都分配给一个具有全新上下文窗口的专用 Agent
- 独立处理:Agent 同时工作,每个都进行彻底的研究,而无需争夺上下文空间
- 结果合成:主 Agent 收集所有已完成的子任务,并将其组装成您请求的格式(表格、报告、数据集等)结果:项目 #250 获得了与项目 #1 相同的分析深度,因为每个项目都有自己的专用 Agent 和完整的上下文窗口。
研究 20 位有影响力的企业家。为每位企业家创建一份详细的传记,涵盖:早年生活、职业里程碑、主要成就、领导风格和持久影响。
为何有效:
- 每份传记都经过彻底、独立的研究
- 所有资料结构一致
- 对每个人进行多源深入研究
- 没有走捷径或生成通用内容

6、定时任务
定时任务允许您通过让 Manus 按计划执行任务来自动化重复性工作。设置一次,Manus 就会自动处理——每日报告、每周研究、每月分析或任何重复性工作流。
- 重复性研究 (每日新闻摘要、每周竞争对手更新)
- 定期报告 (每月分析、每周绩效摘要)
- 周期性数据收集 (抓取价格、跟踪提及)
- 自动化监控 (检查更新、跟踪变化)
在每月的 1 号,分析上个月的网站流量。 创建一个幻灯片演示文稿,内容包括:访客趋势、热门页面、流量来源、和关键洞察。发布到 Slack #marketing。
7、邮件触发
Mail Manus 允许您通过将电子邮件转发到一个独特的机器人地址来触发 Manus 任务。您无需在收件箱和 Manus 应用之间切换,可以直接从您的电子邮件客户端委派工作,并通过电子邮件接收结果。

转发或抄送 (CC):将电子邮件转发到此地址,或在对话中抄送 (CC) 该地址以触发任务
8、网站构建
需要多种工具的 Web 开发过程转变为单一、无缝、对话式的工作流。它不仅仅是一个网站构建器;它是一个综合平台,可以处理从初始研究、内容创建到部署和发布后分析的一切事务。
- 研究和制定战略:使用 Manus 研究您的目标受众,分析竞争对手,并制定内容策略。
- 创建内容和资产:使用内置的 AI 功能为您的网站生成高质量的文本和图像。
- 构建和开发:通过简单的自然语言命令,构建包含后端、数据库和用户身份验证的全栈应用程序。
- 集成和扩展:连接到外部服务,例如Stripe 用于支付,或 Google Maps 用于基于位置的功能。
- 部署和托管:通过单个命令将您的应用程序发布到 Web,所有托管和基础设施均由 Manus 管理。
- 分析和迭代:使用内置分析跟踪用户行为,并利用这些洞察持续改进您的应用程序。
垂直扩展:
- Peak:“做网页的Agent很多,对于AI来说做一个网页并不难,我们要做的是通用的扩展,如增加一个垂直功能,网页做完后能自动发送给你的投资人”
- 一键部署

Manus 将负责整个部署过程,包括:- 预置必要的云基础设施。(完全托管的云基础设施——包括后端、数据库、文件存储等)
- 构建并优化您的应用程序以供生产使用。
- 将其部署到安全、可扩展的托管环境。
- 如果您使用自定义域,则配置必要的 DNS 设置。
- GitHub集成:导出到私有 GitHub 仓库,Manus 和 GitHub 通过自动发送新更改和拉取最新更新来保持同步

8、其他
四、架构
warning 警告
因为官方文档未纰漏具体架构设计与实现细节,所以这里通过自身AI回答与第三方资料总结(非最新内容)
作为一个通用AI代理,Manus 的各项功能并非由单一、固定的模型来完成,而是通过一个灵活的、动态的“模型路由”和“工具编排”系统来实现的。这意味着,对于同一个任务(比如“画一张图”),我可能会根据上下文、具体要求和对当前最优技术的判断,来选择最合适的模型或模型组合。
以下表格概述了我的主要功能以及在执行这些功能时,可能会调用的业界顶尖模型类型。
| 功能分类 | 具体能力 | 可能调用的模型/技术类型 |
| 文本与语言 | 写作、摘要、翻译、问答、代码生成 | GPT-4 系列 (如 GPT-4o, GPT-4 Turbo), Gemini 系列 (如 Gemini 1.5 Pro), Claude 系列 (如 Claude 3 Opus) |
| 图像处理 | 图像生成 (文生图、图生图)、图像编辑 | DALL-E 系列 (如 DALL-E 3), Stable Diffusion 系列 (如 SDXL, SD3), Midjourney |
| 视频处理 | 视频生成 (文生视频)、视频理解与分析 | OpenAI Sora, RunwayML Gen-2, Pika, Gemini 1.5 Pro (用于视频理解) |
| 音频处理 | 语音生成 (TTS)、语音识别 (ASR)、音乐生成 | OpenAI TTS, ElevenLabs, Whisper (用于语音识别), Suno, Udio (用于音乐生成) |
| 数据分析 | 数据处理、统计分析、图表制作 | 结合 Python (Pandas, Matplotlib) 与 高级语言模型 (如 GPT-4) 进行代码生成和数据解读 |
| 研究与搜索 | 信息检索、事实核查、报告撰写 | 结合 Google Search 等搜索引擎与 大型语言模型 (如 Gemini, GPT-4) 进行信息整合与分析 |
| 自动化与协作 | 网页浏览、API调用、应用集成 | 通过 代码执行环境 和 工具调用能力,结合语言模型进行任务规划和执行 |
| PPT/文档制作 | 内容生成、版式设计、图文匹配 | 协同 语言模型 (生成文本) 和 图像模型 (生成图片),再通过代码或API整合到文档格式中 |
核心要点:
- 动态选择: 并非绑定于任何单一模型。核心优势在于能够根据任务的细微差别(例如,您是想要一张照片级真实的图片,还是一张卡通风格的图片),智能地选择当前最适合的工具。
- 协同工作: 许多复杂任务(如制作包含图表的PPT)需要多种能力的结合。会将任务拆解,让文本模型、图像模型和代码执行环境协同工作,最终完成任务。
- 持续更新: AI领域发展迅速,新的、更强大的模型不断涌现。架构允许持续集成最新的技术,以确保能力始终保持在最前沿。
1、示例流程分析(Manus给出的解释)
此处内容均“小米SU7 PPT为例”
1.1 整体架构
从指令到PPT的旅程:从宏观上看,当 Manus 接收到指令后,并不会直接“生成”一个PPT文件。相反这是一个多智能体协同(Multi-Agent Collaboration)的过程。
它通过智能编排不同的 AI 模型和工具,将复杂的 PPT 制作任务拆解为可管理的子任务,并逐一高效完成。其核心架构可分为以下四个关键层级:
| 层级 | 功能描述 | 核心模型/工具 | 作用机制 |
| 感知与规划层 | 理解用户意图,拆解任务步骤,制定执行计划,动态调整策略。 | GPT-4o / Claude 3.5 Sonnet | 作为任务的“大脑”,负责高级语义理解、逻辑推理和任务调度。它将用户模糊的需求转化为清晰、可执行的步骤。 |
| 数据与内容层 | 实时搜索最新数据(如销量、产品参数),生成结构化大纲与详细文案,确保信息准确性和时效性。 | Google Search API + GPT-4o / Gemini 1.5 Pro | 利用强大的搜索引擎获取实时信息,并通过大型语言模型对信息进行筛选、整合和创作,形成 PPT 的核心文字内容。 |
| 视觉与素材层 | 生成符合主题的配图、图表,选择并应用统一的视觉风格和色彩方案,提升 PPT 的视觉吸引力。 | DALL-E 3 / Stable Diffusion XL / Flux / Python (Matplotlib, Seaborn) | 图像生成模型负责根据文案内容生成高质量的视觉素材;Python 库用于数据可视化,确保图表的专业性和准确性。 |
| 渲染与输出层 | 将所有内容(文本、图片、图表)与视觉元素(布局、色彩、字体)整合,转化为 PPT 格式,并注入动画特效,实现最终交付。 | Manus Slides Engine (基于 HTML/CSS/JS) | 这是一个内部开发的渲染引擎,能够将结构化的内容和样式定义动态转换为具有交互性和动画效果的幻灯片,并支持导出为多种格式。 |
动态Agent:意图分析&推理(LLM) + 实时搜索(MCP) + (可能的)视图素材优化(LLM) + 渲染引擎(python等代码执行)
这个过程可以用下面这张流程图来概括:
五、为什么Manus退出大陆
Peak:之前在北京和武汉两地,希望服务于全球市场,做很多合规方面的工作,一些国外模型等。
播客:这是最好的归宿,manus的生存空间会被“巨厂”逐步压缩。模型即产品,Gemini、OpenAI、Claude太强了,后续很多产品可能会被无情淘汰。
从云浏览器一文中可以看到 manus 其云浏览器Agent 交互所支持的软件基本均是国外软件,如 Facebook、Google全家桶、Jira 等,而国内基本没有,这点也是 manus 牵出大陆的原因之一。
在较早时间,官网还提示的是“Manus中文版本正在开发中”那时正在跟通义合作中,而此时已经显示“所在地区不可用”。
如同移动端 Agent 中基于操作系统进行APP交互一样,当豆包手机商业化横空出世,各大厂纷纷内部进行对“豆包手机”的限制,这种限制并非美名的“用户隐私”,而是对自家流量与业务的“保护”。如果用户“购买一个最便宜的羽绒服”直接AI自动打开淘宝搜索并下单,那么对淘宝的商品推荐页、甚至广告流量将是打击。
这里推荐一档不错的播客节目,是张小珺Jùn在2025年12月1日对Manus联合创始人兼首席科学家季逸超(Peak)。(在节目录制的彼时,Meta宣布全资收购Manus事件尚未发生)

Manus决定出售前最后的访谈:啊,这奇幻的2025年漂流啊…
https://www.xiaoyuzhoufm.com/episode/695331cb2db086f897b50ea9
本文引用

















发表评论