AI在线 AI在线

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

OpenAI的Deep Research一经发布便引发了全网的热议。 作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。 在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。

OpenAI的Deep Research一经发布便引发了全网的热议。

作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。

在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。

然而,目前Deep Research仅向Pro用户开放,每月200美元的订阅费用让人望而却步。

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

CEO奥特曼表示,Deep Research已展现出完成具有实际经济价值任务的能力,这标志着AI发展的一个重要里程碑

为推动这项技术的普及,来自香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,并一举在General AI Assistant benchmark GAIA评测中夺得第三,是开源方案中的最优解。

值得注意的是,Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。

此外,系统还支持DeepSeek、Hugging Face等主流模型,为用户提供了更多选择。

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

技术驱动全自动框架AutoAgent:https://github.com/HKUDS/AutoAgent

Auto-Deep-Research:https://github.com/HKUDS/Auto-Deep-Research

论文地址:https://arxiv.org/abs/2502.05957

目前,团队还在开发更多前沿功能,包括Claude的Model Context Protocol(MCP)和GUI Agent等。

实际案例演示

让我们通过一个具体案例,深入了解Auto-Deep-Research的实际应用能力。

以下是AutoAgent团队展示的一个金融分析案例,展现了系统如何处理复杂的多步骤分析任务。

Task:Please analyze the Apple and Microsoft 10-K forms that I uploaded, search online for current news about these two companies, and then help me conduct a quantitative analysis based on the information you find, create visualizations, and generate a detailed report.

这个任务展示了Auto-Deep-Research处理复杂分析场景的强大能力。

系统需要深入解析两份总计超过200页的PDF文档,同时进行网络信息搜索、数据分析与可视化,最终生成全面的分析报告。

演示视频通过三个并行窗口直观展示了整个工作流程:左侧是Auto-Deep-Research的终端交互界面,右上显示Agent 的文件工作目录,右下则是Agent 操控的浏览器窗口。

在用户上传文件并明确需求后,系统便全自动运行,依次完成文件解析、网络搜索、代码编写与调试等任务。

整个过程无需人工干预,仅用约10分钟就生成了一份专业的分析报告和配套的数据可视化成果,充分体现了系统的自动化处理能力。

Agent生成的和图像如下所示:(报告见文末)

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

最强开源Deep Research

Auto-Deep-Research采用模块化的多Agent架构设计,由三个专业子Agent和一个核心调度器(Orchestrator Agent)组成:

  • Web Agent专注于互联网信息的无障碍访问和深度搜索
  • Coding Agent负责编程实现和调试,具备严密的逻辑分析能力
  • Local File Agent致力于多格式文件的解析和内容理解

网络搜索神器Web Agent

网络搜索组件Web Agent是Auto-Deep-Research的核心模块之一,它整合了一套完整的网络工具集,能够高效执行从基础搜索到文件下载的各类网络任务。

Web Agent将日常网页浏览行为抽象为10个高级工具,包括点击(click)、网页搜索(web_search)、访问网址(visit_url)等核心功能。这些工具覆盖了网页搜索、页面导航、内容浏览和文件下载等常见操作场景。

在技术架构上,Web Agent基于BrowserGym框架开发,通过将底层浏览器操作封装为高级工具集,不仅提升了操作灵活性,也为功能扩展提供了良好基础。这种模块化设计确保了Web Agent能够从容应对各类网络任务需求。

编程专家助手Coding Agent

编程专家组件Coding Agent是一个全能型编程助手,它能够熟练处理数据分析、机器学习到系统管理等各类编程任务,无论是复杂计算还是自动化操作,都能高效完成。

为实现智能编程,Coding Agent配备了11个专业工具,涵盖代码脚本创建、Python代码执行、特定命令实现以及目录管理等核心功能。这套完整的工具体系使其能够从容应对各类编程需求。

在系统架构上,Coding Agent采用Docker沙箱环境确保代码执行安全,并支持与E2B等第三方沙箱系统无缝集成。同时,其交互式终端环境设计让代码执行过程和结果一目了然,大大提升了操作体验。

文件分析大师Local File Agent

文件处理专家Local File Agent是一个全能型文件管理专家,它能够统一处理和分析各类本地文件,让复杂的文件处理工作变得简单高效。

Local File Agent最突出的优势在于其强大的文件兼容性。它可以处理几乎所有常见格式,包括文档类(doc、pdf、txt、ppt)、多媒体类(mp4、mov、wav、mp3)以及数据类(csv、xlsx)等多模态文件。通过将不同格式统一转换为Markdown,实现了高效的文件分析和处理。

在用户体验方面,Local File Agent采用交互式Markdown浏览器环境,即使面对超长文本或复杂文件,也能通过分页显示实现清晰呈现,使文件处理过程更加流畅直观。

高效调配,性能领先

Auto-Deep-Research采用精简而高效的架构设计,仅需一个核心调度器——Orchestrator Agent便可驱动整个系统高效运转。

其工作流程清晰明确:Orchestrator Agent接收任务后,将其分解为多个子任务并分派给专业Agent。各Agent完成子任务后,结果返回给调度器进行评估,随后动态调整并分配新的子任务,循环往复直至完成整体目标。

这种优雅而强大的设计在GAIA benchmark评测中取得了骄人成绩:总排名第三,开源方案中位列第一,仅次于OpenAI等闭源系统。

值得一提的是,这是前三名中唯一采用Claude-3.5-Donnet的方案,无需依赖更昂贵的o1系列深度思考模型,从而也使其成为了前三方案中最具性价比的选择。

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

更令人欣喜的是,这个框架具备强大的扩展性,不仅支持接入Deepseek-R1模型,还可部署本地开源模型。

这意味着,人人都可以搭建属于自己的Deep Research系统,让智能研究助手不再是可望而不可即的梦想。

AutoAgent框架

值得一提的是,团队还发布了一个的不需要coding的智能体开发框架——AutoAgent。

下图展示了AutoAgent的全自动、语言驱动的通用智能体系统。其核心组件包括智能体系统实用程序、由LLM驱动的可操作引擎、自管理文件系统和自博弈智能体定制模块。

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

这是一个轻量级存靠语言驱动的Agent构建平台,让用户只需通过自然语言描述就能轻松创建专属AI助手,完全无需编程基础。

前文介绍的Auto-Deep-Research正是基于AutoAgent开发的一个典型应用。

作为一个全方位的Agent开发生态系统,AutoAgent不仅提供了Auto-Deep-Research这样的即用解决方案,还包含更多强大组件:

系统的智慧核心:智能决策引擎LLM Engine

LLM Engine作为系统的中枢大脑,承担着理解用户需求、制定执行策略和协调多Agent协作的重要职责。这个强大的决策引擎让人类用户与AI助手之间的互动达到前所未有的流畅度。

在架构设计上,团队选用LiteLLM作为标准化接口,实现了与超过100种主流语言模型的无缝对接。这种设计就像一个通用翻译器,确保系统能够与各类AI模型顺畅交互。同时,LLM Engine采用连续记忆机制,将历史行动和观察结果作为决策依据,不断优化判断能力。

在技术实现层面,团队创新性地设计了双模式工具调用机制:

1. 面向原生支持工具调用的商业模型的「直接调用模式」;

2. 通过将工具调用转换为结构化XML代码生成任务的「转换调用模式」,让更多开源模型也能融入系统生态。

这种灵活的设计既保障了系统效能,又为用户提供了更广泛的模型选择空间。

知识检索的智慧管家:智能文件管理系统Vector DB

Vector DB是一个先进的向量数据库系统,为AI助手提供强大的文件理解和检索能力。它就像一位智能管家,能够自动化处理和组织用户提供的各类文件资源,实现知识的高效管理。

在技术架构上,系统配备了完整的智能工具链。当用户上传PDF、Word、文本文件,甚至是压缩包或文件夹时,系统会自动进行格式统一化处理,并通过save_raw_docs_to_vector_db工具将内容存储到指定的数据库集合中,确保数据的规范化管理。

在实际应用场景中,AI助手可以利用query_db和answer_query等专业工具,实现对存储内容的精准检索和智能问答。这种设计让AI助手拥有了自主管理专属知识库的能力,大大提升了信息获取和处理效率。相当于为AI配备了一个智能知识助理,随时待命调用所需信息。

打造专属AI助手的平台:智能定制系统Self-Play Agent

智能定制系统是一个创新型自编程框架,让用户能够轻松构建场景化的AI助手和多Agent系统。它就像一位经验丰富的系统架构师,能够将用户的构想精准转化为实际应用,而整个过程简单直观。

系统提供两种灵活的定制模式:简洁高效的「直接创建模式」和深度定制的「工作流创建模式」。

在直接创建模式中,即使是技术小白也能轻松打造专业级多Agent系统。例如,当用户需要一个投资组合管理助手时,只需提供基本需求描述,系统就能自动完成创建。这个过程分为三个核心步骤:需求分析与资源评估、Agent架构规划、XML规范文件生成。

为增强系统能力,团队开发了智能工具编辑器,实现与LangChain、RapidAPI和Hugging Face等主流平台的无缝集成。目前已支持8大类共145个API接口和9类模型库。编辑器不仅能自动生成工具代码,还会进行严格的测试验证,确保工具可靠运行。

在多Agent协作场景中,系统会自动部署智能调度员(Orchestrator Agent)统筹各专业Agent的工作,如同一位富有经验的项目经理,确保团队协作的流畅性。

工作流创建模式则为专业用户提供了更深度的定制能力。通过创新的事件驱动机制,实现了Agent间更灵活的协作模式。整个工作流由工作流表单Agent(负责需求分析和逻辑设计)和工作流编辑Agent(负责实现和执行)协同完成,既保证了强大功能,又兼具极高灵活性。

One More Thing

前文提到的报告如下:

复制
# Apple vs Microsoft: Q4 FY2024 Financial Analysis


## Executive Summary
This analysis compares the financial performance of Apple and Microsoft for Q4 FY2024. Both companies showed strong revenue growth, with Microsoft leading in terms of YoY growth rate but Apple maintaining higher absolute revenue.


## Financial Performance Analysis


### Revenue
- Apple: $94.9B (↑6% YoY)
- Microsoft: $64.7B (↑15% YoY)


### Key Metrics
1. Growth Rates
   - Microsoft showed stronger YoY growth at 15%
   - Apple's more modest 6% growth reflects its larger revenue base


2. Segment Performance
   - Apple's services revenue reached an all-time high
   - Microsoft's Intelligent Cloud revenue grew 19% YoY to $28.5B


3. Profitability
   - Microsoft reported net income of $22B (↑10% YoY)
   - Apple's EPS was $0.97 ($1.64 excluding one-time charges)


## Segment Analysis


### Apple
- Products: 75.4% of revenue
- Services: 24.6% of revenue
- Services reached all-time high
- Hardware segments showing maturity


### Microsoft
- Intelligent Cloud: 44.0% of revenue
- Strong cloud performance
- Hardware challenges (Surface revenue decline)
- Gaming segment growth through Activision Blizzard


## Market Position and Competition


### Strengths
Apple:
- Largest tech company by revenue
- Strong services growth
- High customer loyalty
- Robust cash flow ($27B)


Microsoft:
- Cloud leadership
- Strong enterprise presence
- Successful gaming expansion
- AI integration


### Challenges
Apple:
- Hardware segment maturity
- Regulatory pressures
- China market dependence


Microsoft:
- Hardware division struggles
- Gaming hardware decline
- Integration costs


## Future Outlook and Recommendations


### Apple
1. Continue services expansion
2. Leverage AI integration
3. Explore new hardware categories
4. Focus on emerging markets


### Microsoft
1. Maintain cloud momentum
2. Accelerate AI deployment
3. Restructure hardware division
4. Integrate gaming acquisitions


## Conclusion
Both companies demonstrate strong financial health and market leadership, with d

相关资讯

Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

今天,视频生成领域迎来开源革命! Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。 权威评测VBench及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。
3/13/2025 10:26:45 AM
新智元

全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源

不是5秒,不是10秒,更不只是1分钟。 AI视频生成,正式迎来无限时长的时代! 来,话不多说,直接来看一部AI版《罗马假日》:而就是这么一部小短剧片段,它的“起点”,仅仅就是一张照片和一句Prompt:身着优雅西装的欧美男子与一位美女漫步在罗马街头,分享各自的生活趣事,眼神中满是欣赏;夕阳西下,余晖洒在两人脸上,彼此深情对视。
4/22/2025 9:17:00 AM
量子位

可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题

GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。
4/24/2025 9:35:00 AM

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节开源图像编辑新方法,比当前SOTA方法提高9.19%的性能,只用了1/30的训练数据和1/13参数规模的模型。 做到这一切无需额外预训练任务和架构修改,只需要让强大的多模态模型(如GPT-4o)来纠正编辑指令。 这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题,通过构建更有效的编辑指令提升编辑效果。
5/8/2025 8:57:59 AM
量子位

月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!

近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
5/13/2025 9:21:30 AM
AIGC Studio

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。 尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。 近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。
6/3/2025 2:15:33 PM

阿里达摩院开源 CoI-Agent:一键生成科研 idea 的 AI 研究助手

阿里巴巴达摩院本月开源了一款名为 CoI-Agent 的 AI 工具,旨在帮助科研人员自动生成科研想法。 这款工具通过输入特定的论文主题,能够迅速生成相关的科研 idea,从而节省科研人员的时间,提高工作效率。 只需输入一个主题,CoI-Agent 就能生成一系列相关的关键词、研究问题和研究方法。
10/25/2024 11:00:56 AM
汪淼

AI日报:月之暗面首款自主智能体Kimi-Researcher;MiniMax推音色设计功能;Jaaz发布Lovart AI本地化替代品

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解: Kimi-Researcher月之暗面推出Kimi-Researcher,多轮搜索与推理能力强,在HLE测试中超越谷歌和OpenAI同类产品。 【AiBase提要:】🌐 Kimi-Researcher基于k-系列模型,通过端到端强化学习训练。
6/23/2025 5:00:38 PM
AI在线

腾讯混元3D世界模型震撼发布!360°沉浸场景免费体验,AI重塑虚拟世界未来!

近日,腾讯在2025世界人工智能大会上正式发布混元3D世界模型1.0,并宣布全面开源,成为业界首个支持沉浸式漫游、交互与仿真的3D世界生成模型。 这款模型以其高精度360°场景生成和可交互漫游功能,迅速引发行业热议,为游戏开发、虚拟现实(VR)、数字内容创作等领域打开了无限可能。  高精度360°场景生成,视觉体验再升级  腾讯混元3D世界模型1.0融合了全景视觉生成与分层3D重建技术,支持通过文字描述或单张图片输入,快速生成高质量、风格多样的360°沉浸式3D场景。
7/28/2025 2:32:13 PM
AI在线

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。 这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。 MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。
8/1/2025 3:22:23 PM
AI在线

从图像出发构建可控交互世界!昆仑万维正式开源Matrix-Game

5月13日,昆仑万维集团宣布正式开源Matrix-Game大模型,这是一款专注于交互式世界生成的先进模型,标志着交互式世界生成技术的新突破。 Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B 空间智能大模型,专为开放式环境中的高质量生成与精确控制而设计。 这一开源举措不仅刷新了交互式世界生成的技术上限,也为构建通用虚拟世界基座树立了全新标杆。
5/13/2025 11:00:52 AM
AI在线

Jaaz开源AI设计Agent横空出世!一键批量生成图像,创意生产从此起飞!

人工智能正在重塑创意设计领域,一款全新的开源工具Jaaz引发了广泛关注。 AIbase从社交媒体平台获取最新信息,了解到Jaaz是一款开源AI设计Agent,支持通过简单的API配置实现自动化批量图像生成,为专业创作者和团队提供了高效的解决方案。 本文将详细解析Jaaz的功能亮点、当前局限性以及其对AI创意产业的潜在影响。
6/5/2025 3:00:55 PM
AI在线

性能跃迁,幻觉清零!中国移动“九天”3.0震撼登场,多项核心技术同步开源

7月26日,在2025世界人工智能大会“AI 焕新 产业共赢”企业人工智能产业发展论坛上,中国移动隆重发布了其自主研发的 “九天”基础大模型3.0。 此次发布不仅彰显了中国移动在大模型领域的深厚自研实力和持续创新能力,更标志着其在人工智能产业化发展道路上迈出了坚实一步。 作为国务院国资委战新“百大工程”的重要成果,“九天”基础大模型3.0在继承“高安全、高可控、全国产、全行业”四大特性的基础上,实现了三大关键“焕新”:一、九天众擎语言大模型:架构与性能双重跃迁“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。
7/29/2025 11:32:33 AM
AI在线

微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。
1/20/2025 1:10:22 PM
量子位

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元

AMD开源科研AI Agent,一站式自动写论文

科学研究的漫长历程中,受限于时间和资源,许多高质量的研究想法未能得到充分探索。 如果能够减少探索想法的限制,研究人员将能够同时研究多个概念,增加科学发现的效率。 所以,为了帮助科研人员节省时间快速撰写论文,AMD和约翰·霍普金斯大学的研究人员联合开源了一个专用于科研的AI Agent——Agent Laboratory。
2/12/2025 1:44:12 PM
AIGC开放社区
  • 1