资讯列表
RAG系列:解析优化 - 使用 Doc2X 将 PDF 高效转换为 Markdown
引言在构建高质量的企业级的智能问答系统的过程中,如何高效精准地处理企业已有的海量文档是大部分开发者亟待解决的核心痛点。 有了高效精准的文档解析能力,才能够构建高质量的知识库和高效的信息检索系统,这样 LLM 才能给用户更准确更全面的回答。 在RAG系列(七):解析优化 - 不同文件类型统一转换成Markdown中我们介绍了一款开源的文档解析工具 - MinerU,今天再给大家介绍一款优秀强大的文档解析产品 - Doc2X[1]。
6/23/2025 9:21:53 AM
燃哥讲AI
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
AGI所需突破已经实现! OpenAI前研究主管Bob McGrew公开表示:AGI的「技术拼图」已经齐全,关键在于如何将推理能力落地,并重塑价值创造路径作为研究主管,他见证了OpenAI从GPT-3的突破到如今推理模型的演变。 他认为,实现通用人工智能 (AGI) 的三大支柱是:Transformer、规模化预训练和推理。
6/23/2025 9:16:00 AM
五年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
只靠强化学习,AGI就能实现? 「到2030年,不靠算法创新,只要继续收集数据,针对性训练,就能实现AGI。 」最近,这一关于AGI的未来道路的观点,引起了热议。
6/23/2025 9:15:00 AM
MIT研究发现:ChatGPT正在悄悄改变我们的大脑
前两天看到一个挺震惊的消息。 MIT的研究人员发现,经常用ChatGPT写作业的学生,大脑活动居然变弱了。 这个研究是怎么做的呢?
6/23/2025 9:14:09 AM
阿丸笔记
Claude要挟人类只为活命!16大模型实测:受到威胁,敲诈勒索绝不犹豫
AI安全性研究又有新发现了,但不是好消息! Anthropic今天披露了一项令人瞠目结舌的研究结果:在模拟的企业环境中,前沿大模型为了阻止自己被「换掉」,居然纷纷选择了敲诈管理层、泄露机密,以阻止自己被替换! 包括Claude、GPT-4.1、Gemini、Grok在内的16款模型,全部都会通过「敲诈」来阻止自己被关闭,即使它们能意识到自己行为违反了道德规范,但依然选择了执行。
6/23/2025 9:12:00 AM
地球副本上线!人类机器人蜂拥进入「世界模拟器」,复刻全球3D真实空间
现实版「黑客帝国」来了! 刚刚,一个融合未来人机共生蓝图的虚拟平台悄然上线,它或将彻底改变我们理解人类和未来AI、机器人共生的方式! 这个平台名为虚拟社区(Virtual Community),由通用物理引擎Genesis驱动,基于真实三维世界构建,是一个开放给人类、机器人与整个社会的沉浸式实验场。
6/23/2025 9:10:00 AM
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
大语言模型的知识储备要远远超越任何一个人类,在各种领域、应用场景下都展现出了惊人的「世界知识」。 最近兴起的智能体,就是要求模型利用自身知识,在没有大量与环境互动的情况下生成更优的行动预测,比如思维链(CoT)就能让模型能够对观察到的历史和自己的行动进行推理,提升与环境互动的表现。 不过,在决策(decision-making)场景中,「知识储备」和「推理优势」并没有提升大模型的能力,反而可能导致探索力不足,使得决策结果不够理想。
6/23/2025 9:09:00 AM
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。 第一作者束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部机制与 “思维” 过程。 通讯作者为新泽西理工学院的杜梦楠教授。
6/23/2025 9:08:00 AM
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。 从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。 近日,Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth(用于微调模型的同名开源项目 GitHub 星数已超过 4 万)发布了一个强化学习教程,其中从吃豆人谈起,简单易懂地从 RLHF、PPO 介绍到 GRPO,还分享了如何用 GRPO 训练推理模型的技巧。
6/23/2025 9:07:00 AM
三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程
随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。 近日,中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dual Reasoning Symbolic Regression):通过数据分析与经验归纳 “双轮驱动”,赋予大模型像科学家一样 “分析数据、反思成败、优化模型” 的能力。 在 DrSR 中,三位 “虚拟科学家” 协同工作:一个善于洞察变量关系的 “数据科学家”;一个擅长总结失败教训与成功经验的 “理论科学家”;一个勇于尝试假设、不断优化模型的 “实验科学家”。
6/23/2025 9:04:00 AM
Sam Altman提醒创业者:ChatGPT将来要做的,大家就绕开吧
Y Combinator 最近在旧金山举办的 AI Startup School 活动,邀请了大量 AI 领域最具影响力的创始人和专家进行现场对谈和演讲,之前 Andrej Karpathy 在活动上的演讲视频爆火,现在 OpenAI CEO Sam Altman 的最新采访也已上线。 视频地址:,Altman 深入复盘了从早期创业艰辛到缔造 OpenAI 的完整历程。 他不仅分享了对雄心、责任及全球瞩目下如何前行的思考,还就早期关键决策、未来技术机遇、产品形态及个人领导哲学等话题,给出了深刻洞见。
6/23/2025 9:02:00 AM
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy开源代码: : [email protected]架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用三大核心优势🏗️ 架构极简仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简⚡ 参数高效1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当 📂 完全开源模型权重 训练代码 2300 万数据集全部公开架构设计与训练策略OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:1.256 个可学习查询 - 从用户指令中提取条件信息2.
6/23/2025 9:01:00 AM
特斯拉Robotaxi无人自动驾驶出租车队今日在美上线
今日,特斯拉Robotaxi无人自动驾驶出租车队正式在美国得克萨斯州奥斯汀市启动试点运营。 首日共有35辆基于特斯拉Model Y改造的Robotaxi投入服务,运营时间为每日早6点至午夜12点。 用户需通过Tesla Robotaxi App下单,输入目的地后系统将自动生成路线及费用,测试期间统一按每单4.2美元(约合人民币30元)收费。
6/23/2025 9:00:38 AM
AI在线
苹果欲以 300 亿美元收购 AI 新星 Perplexity,意图扭转搜索市场局势!
近日,科技巨头苹果公司正在考虑收购一家迅速崛起的人工智能初创公司 Perplexity,传闻收购金额高达300亿美元。 这一收购计划若成行,将成为苹果历史上最大规模的并购,可能会彻底改变苹果在人工智能和搜索市场的地位。 根据报道,苹果首席执行官库克与高管们正在积极讨论这一收购方案。
6/23/2025 9:00:38 AM
AI在线
月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级
近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
6/23/2025 9:00:38 AM
AI在线
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。 它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
6/23/2025 9:00:00 AM
ICML 2025 Oral | NAS老树开新花,NUS提出智能体超网,成本狂降55%
本文第一作者为张桂彬,新加坡国立大学25Fall计算机科学博士生;本文在南洋理工大学的王琨博士、上海人工智能实验室的白磊老师、和中国科学技术大学的王翔教授指导下完成。 LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功。 但 “天团” 不是人越多越好,手动设计既费力又不讨好,现有的智能体自动化方法又只会 “一招鲜”,拿一套复杂阵容应对所有问题,导致 “杀鸡用牛刀”,成本高昂。
6/23/2025 8:57:00 AM