AI Agent 云端浏览器
manus是云计算产品
Peak(季逸超) – 文末播客采访
一、产品背景
Peak 早些年除了做机器学习,自然语言处理他就做过第一个浏览器,熟悉Chrome内核。
⬇️
2024年中6月份的时候,浏览器已经在团队中已经产出做成了,这是他的第二个浏览器。
但心中一直有一个疑惑真的可行吗? 恰巧 arc 浏览器给了答案:“我甚至没有办法去说服我身边的人Chrome换成arc”。
他也讨论到了关于做模型还是做应用?我相信做应用的公司最终都会有做模型的能力,认为应用可以优于模型先行。(同时也聊到喜欢的国内三家AI公司,千问,deepseek还有一家没听清,英文单词)
⬇️
田野观察:发现公司很多非程序员员工在 IDE 里使用 cursor,如数据分析
当一个产品被“非目标用户”高频使用,往往意味着要么他们在误用(很快流失),要么它触到了一个更大的缺口(会催生新形态),是一个很明显的不一样的用户场景。
- 用户群体
- 认为 cursor 等 Agent 应该跑在云上,而非用户本地计算机,不占用用户经理(目前大多数agent步骤如写文件等都需要与用户本地交互)
AI Agent 云端浏览器
24年9月份开始研发,25年1月份已经做完。
⬇️
最基础的是简单任务做成,如点一份外卖,但有时简单任务人的判断要比AI判断的更快。所以更重要的是保证长任务,一种是复杂度高的,一种是时间长的。
二、集成
1、MCP
Gmail, Notion, Stripe, HubSpot, Slack, Google Calendar, Hugging Face, Google Drive, GitHub
用例: 多应用工作流、自动化数据同步、跨平台任务执行
2、Zapier
3、Slack
4、API
三、功能
1、图片
Design View 不是一个独立的工具;
它是 Manus Agent 的集成功能,支持复杂、多步骤的视觉工作流程。关键区别在于能够对现有图像进行精确的、上下文相关的编辑,而不是每次输入提示词时都从头开始重新生成新图像。
Design View 由 Google 的 Nano Banana Pro 提供支持,这是一款尖端的图像生成模型 Nano Banana Pro 是Google DeepMind推出的新旗舰模型,专门用于高保真图像生成和编辑。该模型官方名称为Gemini 3 Pro Image,据报道于2025年11月20日正式发布。
早先生成图片不满意,则会修改或新增整段提示词中的部分描述,然后整段提示词重新提交后生成,相当于从头开始,效率较低。
| Design View | 豆包(Android APP) | |
|---|---|---|
| 精确度& 二次编辑 | 获得初始图像后,您可以使用标记工具进行精确编辑![]() ![]() | 仅能通过提示词进行描述修改,对于部分细节,很难精确定位到并修改成功,所以可能需要通过美图秀秀等图片美化手动处理。![]() |
| 上下文相关 | 无需重复提示词或重新上传图片✅ | 无需重复提示词或重新上传图片✅ |
2、制作ppt
Manus 可以使用我的公司模板吗?
可以。上传您的 .pptx 模板文件。
如果我需要更改怎么办?
要求 Manus 通过对话进行更改,或直接编辑 PowerPoint 文件。
Manus 可以根据我的数据创建图表吗?
可以。上传您的数据(CSV、Excel),Manus 将创建适当的可视化效果。
3、媒体
Manus 可处理多种媒体类型——生成图像、理解视频内容、创建语音输出以及转录言语。在您的工作流程中无缝结合文本、图像、视频和音频。
| 功能 | 作用 | QA | 示例用途 | |
| 图像生成 | 根据描述创建自定义图像 | Q:我可以生成特定尺寸的图像吗? A:指定尺寸:“生成一个 1920×1080 的图像…”或“用于 Instagram 的方形格式…” | 产品模型、插图、图表 | “生成一张图表,显示我们的客户旅程从 认知到购买的过程” |
| 图像理解 | 分析并提取图像中的信息 | 文档扫描、视觉分析 | “详细描述此图像中正在发生的事情” | |
| 视频理解 | 分析视频内容并提取见解 | Q:视频可以多长? A:Manus 可以处理长达数小时的视频。较长的视频需要更多时间。 | 会议记录、内容分析 | 详见下方测试 |
| 语音输出 | 将文本转换为自然语音 | 配音、音频内容 | “将这篇博客文章转换为具有自然语音旁白的音频文件” | |
| 语音转文本 | 将音频转录为文本 | Q:哪些音频格式可用于转录? A:MP3、WAV、M4A、WEBM 和大多数常见的音频格式。 | 会议纪要、访谈记录 | “转录这 20 个客户支持电话并识别 提及的常见问题” |
针对其中的「视频理解」进行了尝试,过程如下:
观察这段视频,帮我完成以下事情: 1. 分析下这个视频都讲了什么内容? 2. 提取出一个视频的脚本大纲; 3. 分析哪些群体用户可能喜欢这个视频


下图为最终manus输出的分析报告(截图)
可以看出,视频理解效果还不错。
当然,manus更在意Agent垂直扩展,所以还可以组合功能使用,如「视频转博客」:
观看此产品演示视频,将其转录,提取关键功能,在重要时刻生成屏幕截图,并创建包含图像和文本的博客文章
4、数据分析
Manus 将原始数据文件转换为精美的可视化洞察,无需电子表格专业知识或手动创建图表。
上传您的数据,描述您想了解的内容,Manus 将处理分析、创建专业的视觉效果,并以您偏好的格式(幻灯片、报告、仪表板或网页)交付结果。

5、广泛研究
广泛研究是 Manus 处理涉及处理许多类似项目的任务的方法,例如分析 100 个产品、研究 50 家公司或生成 20 篇内容。广泛研究没有使用单个 AI Agent 按顺序处理项目,而是部署了数百个并行工作的独立 Agent。每个 Agent 都会收到自己专用的上下文,并独立处理一个项目。这种架构解决了上下文窗口限制问题,该限制会导致传统 AI 系统随着项目数量的增加而质量下降。
广泛研究采用了一种根本不同的架构:
- 任务分解:主 Agent 分析您的请求并将其分解为独立的子任务(例如,“研究公司 #1”、“研究公司 #2”等)
- 并行 Agent 部署:每个子任务都分配给一个具有全新上下文窗口的专用 Agent
- 独立处理:Agent 同时工作,每个都进行彻底的研究,而无需争夺上下文空间
- 结果合成:主 Agent 收集所有已完成的子任务,并将其组装成您请求的格式(表格、报告、数据集等)结果:项目 #250 获得了与项目 #1 相同的分析深度,因为每个项目都有自己的专用 Agent 和完整的上下文窗口。
研究 20 位有影响力的企业家。为每位企业家创建一份详细的传记,涵盖:早年生活、职业里程碑、主要成就、领导风格和持久影响。
为何有效:
- 每份传记都经过彻底、独立的研究
- 所有资料结构一致
- 对每个人进行多源深入研究
- 没有走捷径或生成通用内容

6、定时任务
定时任务允许您通过让 Manus 按计划执行任务来自动化重复性工作。设置一次,Manus 就会自动处理——每日报告、每周研究、每月分析或任何重复性工作流。
- 重复性研究 (每日新闻摘要、每周竞争对手更新)
- 定期报告 (每月分析、每周绩效摘要)
- 周期性数据收集 (抓取价格、跟踪提及)
- 自动化监控 (检查更新、跟踪变化)
在每月的 1 号,分析上个月的网站流量。 创建一个幻灯片演示文稿,内容包括:访客趋势、热门页面、流量来源、和关键洞察。发布到 Slack #marketing。
7、邮件触发
Mail Manus 允许您通过将电子邮件转发到一个独特的机器人地址来触发 Manus 任务。您无需在收件箱和 Manus 应用之间切换,可以直接从您的电子邮件客户端委派工作,并通过电子邮件接收结果。

转发或抄送 (CC):将电子邮件转发到此地址,或在对话中抄送 (CC) 该地址以触发任务
8、网站构建
需要多种工具的 Web 开发过程转变为单一、无缝、对话式的工作流。它不仅仅是一个网站构建器;它是一个综合平台,可以处理从初始研究、内容创建到部署和发布后分析的一切事务。
- 研究和制定战略:使用 Manus 研究您的目标受众,分析竞争对手,并制定内容策略。
- 创建内容和资产:使用内置的 AI 功能为您的网站生成高质量的文本和图像。
- 构建和开发:通过简单的自然语言命令,构建包含后端、数据库和用户身份验证的全栈应用程序。
- 集成和扩展:连接到外部服务,例如Stripe 用于支付,或 Google Maps 用于基于位置的功能。
- 部署和托管:通过单个命令将您的应用程序发布到 Web,所有托管和基础设施均由 Manus 管理。
- 分析和迭代:使用内置分析跟踪用户行为,并利用这些洞察持续改进您的应用程序。
垂直扩展:
- Peak:“做网页的Agent很多,对于AI来说做一个网页并不难,我们要做的是通用的扩展,如增加一个垂直功能,网页做完后能自动发送给你的投资人”
- 一键部署

Manus 将负责整个部署过程,包括:- 预置必要的云基础设施。(完全托管的云基础设施——包括后端、数据库、文件存储等)
- 构建并优化您的应用程序以供生产使用。
- 将其部署到安全、可扩展的托管环境。
- 如果您使用自定义域,则配置必要的 DNS 设置。
- GitHub集成:导出到私有 GitHub 仓库,Manus 和 GitHub 通过自动发送新更改和拉取最新更新来保持同步

8、其他
四、为什么Manus退出大陆
Peak:之前在北京和武汉两地,希望服务于全球市场,做很多合规方面的工作,一些国外模型等。
播客:这是最好的归宿,manus的生存空间会被“巨厂”逐步压缩。模型即产品,Gemini、OpenAI、Claude太强了,后续很多产品可能会被无情淘汰。
从云浏览器一文中可以看到 manus 其云浏览器Agent 交互所支持的软件基本均是国外软件,如 Facebook、Google全家桶、Jira 等,而国内基本没有,这点也是 manus 牵出大陆的原因之一。
在较早时间,官网还提示的是“Manus中文版本正在开发中”那时正在跟通义合作中,而此时已经显示“所在地区不可用”。
如同移动端 Agent 中基于操作系统进行APP交互一样,当豆包手机商业化横空出世,各大厂纷纷内部进行对“豆包手机”的限制,这种限制并非美名的“用户隐私”,而是对自家流量与业务的“保护”。如果用户“购买一个最便宜的羽绒服”直接AI自动打开淘宝搜索并下单,那么对淘宝的商品推荐页、甚至广告流量将是打击。
这里推荐一档不错的播客节目,是张小珺Jùn在2025年12月1日对Manus联合创始人兼首席科学家季逸超(Peak)。(在节目录制的彼时,Meta宣布全资收购Manus事件尚未发生)

Manus决定出售前最后的访谈:啊,这奇幻的2025年漂流啊…
https://www.xiaoyuzhoufm.com/episode/695331cb2db086f897b50ea9
本文引用
















发表评论