AI
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢? 中科院&字节联合提出的「Grasp Any Region」提供了新思路。
Excel新AI插件!华尔街「表哥表姐」对手来了
Claude牵手微软,准备进军华尔街,在金融服务领域插一脚了! Anthropic宣布他们正在通过一个Claude For Excel来实时对接市场数据和投资组合等金融领域数据。 Claude正在分析一份包含Acme Grille, Inc.
微调已死!「共识机制」实现提示词自我进化,性能飙升
当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。
AI大变局:拐点不在云端,而在边缘
AI模型开发转向边缘,将高性能计算带到设备端。 LLM在边缘面临功耗、可靠性和工业用例挑战,需SLM/VLM、分布式智能体及安全防护,谨慎部署。 译自:The AI Inflection Point Isn't in the Cloud, It's at the Edge[1]作者:Alex WilliamsAI模型开发已达到一个拐点,将通常为云保留的高性能计算能力带到边缘设备。
地理学的AlphaEvolve?MIT斯坦福让AI自我生长、懂地理、懂世界
以下或许是一位地理科研工作者的日常:为了让所需的地理模型表现得更好,他不断和大模型(如ChatGPT)对话,尝试改进代码或修复bug。 大模型给出的初版答案往往并不完美,于是研究者又会根据结果提出新的修改意见。 就这样一来一回,经过不断交互,代码逐渐被打磨得完善。
90后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞
今天,34岁中国数学家王虹,拿下了2025 Salem Prize(塞勒姆奖)。 因在调和分析与几何测度论领域重大未解问题上的卓越贡献,获此殊荣。 在业界,它被誉为「菲尔兹」风向标。
当 AI 下场炒 A 股,「推理」成了新的直觉
几天前,一场名为 “AI Trading Battle” 的实验在海外社交媒体上火了。 主办方给六个主流大模型(包括 ChatGPT、Gemini、Claude 等)每人一万美元的虚拟资金,让它们自由进行加密货币交易。 结果让人大跌眼镜:截至今天,DeepSeek V3.1 实现了超过 126% 的惊人盈利率,而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元,亏损率超过 50%。
如何利用OpenCode将AI集成到终端中使用
译者 | 刘涛审校 | 重楼人工智能不再仅仅是辅助工具,它正逐步成为真正的编程伙伴。 在过去一年中,开发者见证了GitHub Copilot和ChatGPT等工具的兴起,这些技术彻底改变了代码编写的方式。 然而,大多数此类工具主要运行于集成开发环境(IDE)或浏览器界面中。
AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?
AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。 这不是科幻,而是正在发生的事实。 刚刚,谷歌DeepMind团体的一篇论文登上Nature。
超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2
AI图像编辑与生成,正迎来一场体验革命。 香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。 指令遵循能力全面领先,真正做到指哪打哪。
开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
来自伦敦大学学院(UCL)的初创团队EuniAI开源发布了AI软件智能体Prometheus。 该系统在SWE-bench Verified上取得71.2%的Pass@1成功率,成绩已被官方确认并合并至主榜单。 令人瞩目的是,这一成果来自高校科研团队,却已与产业巨头同台竞技,展现出学术研发在AI工程领域的产业级突破。
VaseVQA:考古领域实现专家级,诊断+补弱RL框架
古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
大模型在具身推理上「翻车」了?4496 道题全面揭示短板
祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
世界模型==VQA?机器人不用想象画面,预测语义就够了
众所周知,世界模型是一种让 AI「想象未来」的学习方法。 它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。 这种能力非常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
PyTorch Monarch震撼发布!单控制器模型彻底简化分布式AI工作流程
Meta的PyTorch团队近日发布了Monarch,这是一个革命性的开源框架,专门用于简化跨多个GPU和机器的分布式AI工作流程。 该系统的最大亮点是引入了单控制器模型,让开发者只需一个脚本就能协调整个集群的计算任务,大幅降低了大规模训练和强化学习任务的复杂度,同时保持标准PyTorch代码的编写方式不变。 传统多控制器模式的终结Monarch彻底颠覆了传统的多控制器方法。
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
美团视频生成模型来了!一出手就是开源SOTA
美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉