AI在线 AI在线

理论

比10年专业医生准4倍!微软发布突破性医疗AI系统

微软首席执行官Satya Nadella在社交平台分享了,微软最新发布的突破性医疗AI系统MAI-DxO。 MAI-DxO最大技术创新在于其模型无关的设计,使其能够适配不同厂商、不同能力的语言模型,并普遍提升它们的诊断性能。 并且能模拟真实医生的诊断流程,比专业医生的准确率更高。
7/2/2025 9:43:13 AM

亚马逊宣布全球已部署100万台机器人 新AI模型助力物流效率提升

据外媒报道,亚马逊近日宣布其全球机器人部署数量已达 100 万台,标志着该公司在自动化与人工智能领域实现重大突破。 与此同时,亚马逊推出名为 DeepFleet 的生成式 AI 基础模型,将进一步提升物流网络运行效率。 资料显示,作为全球最大的移动机器人制造商和运营商,亚马逊自2012 年起持续推进机器人化进程,目前已在全球 300 多个设施中部署机器人系统。
7/2/2025 9:37:02 AM

深度解析 MEM1:开启智能体长时序高效交互之门

大家好,我是肆〇柒。 相信大家在落地AI应用的时候,对长上下文的处理时所遇到的挑战,都深有感触。 大型语言模型(LLM)于单轮任务中表现卓越,然而现实应用场景日益复杂,多轮交互需求剧增。
7/2/2025 9:33:54 AM
肆零柒

Cursor也挖人了:Claude Code开发主管和产品经理被一锅端

编程神器Cursor的母公司Anysphere也开始挖人了Cursor这次挖到了合作伙伴Anthropic的两名前核心高管:原“Claude Code”项目开发负责人Boris Cherny将出任首席架构师兼工程主管,原项目产品经理Cat Wu将担任产品负责人Boris Cherny 2024年9月加入Anthropic,入职还不到一年,之前在小扎公司Meta 干了六年多,任职首席软件工程师, Instagram 的服务器架构和开发基础设施主管, Meta 的代码质量主管,毕业于美国加州大学圣迭戈分校,学的是经济学Cat Wu全名Catherine Wu,2024年8月加入Anthropic,擅长构建高可靠、可解释、可控制的人工智能系统,本科毕业于普林斯顿大学,专业计算机科学,加入Anthropic之前有多段不同领域工作实习经历,最长两年,比如在谷歌实习任职软件工程师,在J.P. 摩根实习任职交易员,在Alexandr Wang公司scale AI作为作为产品经理任职两年此番“挖角”或将使两家公司的合作关系变得微妙——毕竟Cursor的大部分AI功能都由Anthropic提供技术支持。 目前,Anthropic的年化收入已高达40亿美元,而Cursor的年度经常性收入也已突破5亿美元AI编程领域现在竞争非常激烈,下面给大家梳理一下,如今,AI编程领域的战火已蔓延至四大战场:1.
7/2/2025 9:29:34 AM

不用AI编程就滚蛋!这家公司CEO一封邮件把程序员都惹毛了

想象一下,你的老板突然在全员邮件里宣布:从下个月开始,公司每月投入5万美元购买AI编程工具,所有不使用"Vibe Coding"的程序员都要接受绩效改进。 这不是假设。 这是一家真实公司的CEO刚刚发出的邮件内容。
7/2/2025 9:25:01 AM
阿丸笔记

ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA

文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。 该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。
7/2/2025 9:21:30 AM

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM

Meta“1亿美元年薪”震荡硅谷!奥特曼回应:总有人唯利是图,而且都算不上TOP

疯狂,太疯狂。 这两天,硅谷乃至全球AI领域的注意力都被Meta老板扎克伯克带走了,毕竟也不是谁都能boss直聘,一举挖走8名OpenAI核心员工。 更何况其中大部分,还是以聪明能干吃苦耐劳著称的华人研究员。
7/2/2025 9:13:56 AM

华为又开源了个大的:超大规模MoE推理秘籍

超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。 现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了! 这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。
7/2/2025 8:55:00 AM

一文读懂数据标注:定义、最佳实践、工具、优势、挑战、类型等

想知道自动驾驶汽车或语音助手等尖端人工智能系统如何实现其惊人的准确性吗? 秘诀在于高质量的数据标注。 这一过程确保数据被精确标记和分类,从而使机器学习 (ML) 模型发挥最佳性能。
7/2/2025 8:54:01 AM
晓晓

超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

就在刚刚,一支来自中国高校的团队成功刷榜了OpenAI发布的权威基准测试MLE-bench! 这一次,荣耀属于上海交通大学人工智能学院Agents团队。 他们提出的AI专家智能体「ML-Master」,凭借着29.3%的平均奖牌率,拿下第一!
7/2/2025 8:50:00 AM

Meta抄袭DeepSeek大翻车?硅谷大佬爆料亮点满满,AI军备烧钱真相震碎硅谷

谁会首先到达ASI(超级智能)? 大佬斩钉截铁的回答,让主持人惊呆了几秒。 GPT-4.5到底哪里出了问题?
7/2/2025 8:47:00 AM

你的Agent电脑助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞

本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。 主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅。 通讯作者为刘东瑞和邵婧,上海 AI Lab 安全团队,研究方向为 AI 安全可信。
7/2/2025 8:46:00 AM

策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
7/2/2025 8:43:00 AM

四年三次加码核聚变,硅谷巨头们疯狂抢电ing

当前的趋势是AI,AI的下一个趋势是——电。 准确说是核电。 AI狂飙的时代,算力需求呈指数级攀升。
7/2/2025 8:42:00 AM

伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。 论文标题:Whole-Body Conditioned Egocentric Video Prediction论文地址:::,人工智能领域一直在思考一个看似简单但非常根本的问题:如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」? 在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。
7/2/2025 8:40:00 AM

借助氛围编程用Python编写一个速读应用程序,只需15分钟

译者 | 布加迪审校 | 重楼少些滚动,多点专注。 在这个用时15分钟的Python 项目中,我们将借助氛围编程编写一个简洁、无干扰的速读应用程序。 想象一下:你想构建一个速读应用程序。
7/2/2025 8:38:11 AM
布加迪

1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限

为什么AI生成的视频总是模糊卡顿? 为什么细节纹理经不起放大? 为什么动作描述总与画面错位?
7/2/2025 8:30:00 AM