理论
Meta AI部门大地震!小扎急派心腹干将「救火」
Meta AI部门再现人事大地震! 刚刚,Meta传出重大人事调整:前元宇宙负责人Vishal Shah将转岗至Meta超级智能实验室,担任人工智能产品副总裁,并向Nat Friedman汇报。 这是Meta AI部门最新一次高管调整。
中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动
还记得 DeepSeek R1吗? 它实现了大语言模型先思考再回答。 刚刚,中科院自动化所、清华和GigaAI联合发布视觉-语言-行动(Vision-Language-Action, VLA)模型的R1推理版本。
告别GPT!最强AI编程神器Cursor自研核心模型,速度快4倍,AI创业公司大佬:这是我用过最疯狂的模型之一!网友:性价比不俗
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)这两天真是大事不断。 AI 编程工具 Cursor 背后的初创公司 Anysphere,在最新的 Cursor 2.0 更新中正式推出了首个自研大型语言模型 —— Composer。 Composer 是一款专为生产级环境设计的高性能编程模型,旨在让 AI 能更快、更精准地执行真实软件开发任务。
大模型去全球接单平台赚外快,98%惨遭老板退货!ScaleAI宣布新智能体基准:AI绝对自动化几乎为0,大多知名基准过时、封闭
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)如果让大模型去外包平台去接单,它真的可以赚到钱吗? 现在终于有专业的评测机构站出来公布答案了。 不用硬夸AI,事实是让它接单,它会饿死。
为ArduRover装上“眼睛”:基于计算机视觉的自主漫游车实战
译者 | 朱先忠审校 | 重楼LOONARR-1搭载ArduRover如果你曾经尝试构建搭载计算机视觉的自主系统,你就会知道入门有多么困难。 当平台是空中平台时,例如FPV无人机或飞机,难度会更大——飞行过程中的任何失误都可能导致坠机和严重损坏。 相比之下,使用像Rover这样的地面机器人平台就可以消除这些风险。
如何理解:高效的异构算力调度是业界目前面临的一大难题?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建大模型应用架构设施底座:异构算力。 在后摩尔时代与AI爆发的双重驱动下,计算架构正经历一场从同构到异构的深刻变革。 以 GPU、NPU、FPGA、DPU .
人大 & 百度 SIGIR 新发现:揭开 RAG 的 “黑箱”,LLM 知识利用的四阶段与神经元密码
当我们为RAG(检索增强生成)系统能输出更精准的答案而欣喜时,一个核心问题始终悬而未决:当外部检索到的知识涌入LLM(大语言模型)时,模型是如何在自身参数化知识与外部非参数化知识之间做选择的? 是优先采信新信息,还是固守旧认知? 中国人民大学与百度团队联合发表于2025年SIGIR的研究《Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation》,首次从宏观知识流与微观模块功能两个维度,系统性拆解了RAG中LLM的知识利用机制。
当“骆驼打包行李”难倒AI:ImagerySearch如何让视频模型学会想象?
大家好,我是肆〇柒。 今天我们一起阅读一篇来自中国科学院大学(UCAS)、阿里巴巴高德地图(AMAP)与中科院智能系统与工程研究中心(CRISE) 联合团队的最新工作——《ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints》。 这项研究直面当前视频生成模型在“想象力任务”中的系统性失效,提出了一种无需额外训练、仅靠测试时自适应策略即可显著提升长距离语义生成能力的新范式。
英伟达,全球首个5万亿美元公司诞生!「GPU帝国」超日本德国GDP
今夜,英伟达再次创造历史! 受GTC大会的影响,英伟达股价上涨4.15%,成为首家市值突破5万亿美元的公司! 这是一个前所未有的里程碑,不仅是英伟达,不仅是GPU芯片,更是AI时代的里程碑。
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
Cursor的首个编码模型,刚刚发布了! 最新进展,Cursor 2.0正式发布,并且首次搭载了「内部」大模型。 没错,不是GPT、不是Claude,如今模型栏多了个新名字——Composer。
当人工智能遇见图形数据库:利用多模态数据融合进行创新
人工智能时代的数据挑战随着智能技术革新各行各业,数据量和种类都呈现爆炸式增长。 银行生成结构化交易记录、非结构化客户通话记录以及半结构化的 JSON 档案。 医院管理着自由文本的病历、数值化的实验室结果以及诊断图像。
Amazon重磅新作SimRAG:让大模型“自我进化”,轻松适配专业领域问答任务
在大模型技术飞速发展的今天,通用大模型在日常对话、内容创作等场景中已展现出卓越能力,但当面对医学、科学、计算机等专业领域时,却常常“力不从心”。 分布偏移导致模型认知与领域数据脱节,高质量领域数据稀缺推高训练成本,传统RAG技术又难以精准捕捉领域信息——这些痛点成为大模型落地专业场景的关键阻碍。 而Amazon在2025年NAACL会议上发表的SimRAG(Self-Improving Retrieval-Augmented Generation) 框架,为解决这些问题提供了全新思路。
阿里新研究:统一了VLA和世界模型
如果说视觉让AI看见世界,动作让AI改变世界,那么——WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下,世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性;动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。
估值上万亿、现金流见底:AI盛宴背后的真相没人敢说
最具价值的私有AI初创,都有谁? 投资人Deedy Das总结了目前估值最高的15家AI初创,以及最新的公开的营收和增长情况。 图片OpenAI、xAI和Anthropic毫无意外霸榜前三。
DeepSeek-OCR:用视觉模态给长文本“瘦身”,大模型处理效率再突破
在大语言模型(LLMs)不断拓展能力边界的今天,长文本处理始终是道绕不开的坎——文本序列每增加一倍,计算量就可能翻四倍,像处理一本几十万字的书籍、一份上千页的金融报告时,内存溢出、推理卡顿成了常态。 但DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。 原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。
为什么说做好RAG就够了?深度拆解RAG系统的现状、优化与未来
在如今的AI技术讨论中,“模型微调”曾一度被视为提升任务效果的“终极方案”。 但在2025年10月硅谷那场AI Agent内部研讨会上,多位行业专家却抛出了一个颠覆性观点:多数场景下,模型微调根本用不上,把检索增强生成(RAG)做透,就足够解决问题。 这个观点背后,是RAG技术在成本、效率与知识时效性上的天然优势,也是行业对“AI落地实用性”的重新审视。
TATTOO:让PRM真正"看见"表格的工具集成验证框架
大家好,我是肆〇柒。 今天我们一起探索一项来自UIUC、Amazon、Purdue大学和斯坦福大学的联合研究——TATTOO。 这项研究揭示了一个令人惊讶的现象:尽管现有Process Reward Models (PRMs)在文本推理中表现出色,但在面对表格数据时却近乎"失明"。
LangChain提出Agent工程化的新分层(Agent harness)
LangChain拿到了新融资,对自己有了新定位——Agent基础设施提供商,同时对自己的产品矩阵做了新的梳理,重新定义了Agent开发的三个层次。 :Framework(框架层):提供抽象和标准化接口。 LangChain就是这一层,还有Vercel的AI SDK、CrewAI这些。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉