理论
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
2025年,「世界模型」成为了AI巨头们厮杀的战场。 谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。 甚至,网友将其称之为「游戏引擎2.0时代」。
“AI不是工具,是工人!” 英伟达GTC 2025,黄仁勋如是说
“AI不是工具,是会用工具的工人。 ”英伟达在华盛顿特区召开GTC(GPU技术大会),创始人兼CEO黄仁勋穿着标志性的皮衣小跑上台。 在这个由英伟达主办的,探讨人工智能、深度学习、自动驾驶等领域最新技术的,全球性的技术大会上,黄仁勋首次提出了这个颠覆性的AI理念。
71.2%的惊人解决率,伦敦大学开源顶级AI代码修复智能体系统
伦敦大学,瑞典皇家理工学院等发布了一个名为Prometheus的AI系统。 它通过将代码库变成一张巨大的知识图谱,解决了跨越9种编程语言的真实GitHub问题。 它不再局限于特定语言或预设的测试环境,而是像一个经验丰富的软件工程师团队,直接面对真实、复杂且多语言的开源项目。
AI推理黑箱终于被可视化了!Meta团队神作:新方法可以控制大模型内部自查,甚至自我纠错!AI迎来可调试时代!
编辑|云昭出品 | 51CTO技术栈(微信号:blog51cto)AI 的“聪明”有时令人惊叹,有时又让人困惑。 它能写论文、算数、作诗,却也会在最简单的逻辑题上犯错。 更可怕的是——它自己并不知道哪一步错了。
最新 Claude Code 实战秘籍!月烧十万氪金总结:管理智能体上下文、批量处理任务、快速原型、自动生成 PR……
编辑 | 听雨小编最近刷到一篇让程序员直呼“醍醐灌顶”的文章——出自软件工程师兼安全工程师 Shrivu Shankar。 他基于日常使用 Claude Code 的真实经验,分享了从个人项目到企业级开发的全套智能体最佳实践。 Shrivu 不只是讲理论,他讲述了管理智能体上下文、批量处理任务、快速原型、自动生成 Pull Request 的实操技巧,还结合 Hooks、Skills、MCP、SDK 等高级特性,告诉你如何把 AI 真正融入日常工程工作流。
从“连接”到“对话”,对话式 AI 驱动 RTE 产业跃迁之路
10月31日,由声网与 RTE 开发者社区联合主办的 Convo AI & RTE 2025 第十一届实时互联网大会在北京正式开幕。 本届大会以“AI 有声”为主题,汇聚了全球顶尖的 RTE&对话式 AI 专家、开发者、企业代表与生态伙伴,共同探讨实时互动(RTE)与对话式 AI (Convo AI) 深度融合的新场景、新架构与新机遇。 在主论坛上,声网创始人兼 CEO 赵斌、微软(中国)首席技术官韦青、Agora 联合创始人 Tony Wang 等嘉宾分别带来主题演讲和圆桌讨论。
OpenAI Atlas等AI浏览器暴露Web Agent安全风险!南洋理工破解底层机制
随着OpenAI推出ChatGPT Atlas浏览器,与Google Chrome正面竞争,AI浏览器赛道的核心技术关注点已聚焦于「自动化效率」。 但同时,LLM驱动的Web Agent也正演变为难以防御的「智能爬虫」,对当前网络安全构成日益严峻的威胁。 为此,南洋理工大学、香港理工大学、夏威夷大学马诺阿分校团队联合研发的WebCloak,针对性破解了Web Agent的底层机制,为这一新型威胁提供了轻量且高效的防御方案,成功填补了当前 LLM 驱动爬虫防御的技术空白。
综述238篇遥感微调!清华院士团队指出9大方向 | CVMJ
近年来,在大数据与大模型的共同驱动下,遥感图像解译的热点正从模型结构设计转向「基础模型 微调」的新范式。 在丰富且复杂的任务场景中,依托预训练的通用表征作为基础,通过任务化适配,可以实现更强的迁移能力和应用效果。 面对土地调查、农业监测、天气预报、海洋导航等关键应用领域所面临的「小样本、长尾目标、算力受限」的现实挑战,微调技术以其独特的优势,在更低的数据和资源成本投入下,取得更好的任务性能和更高的部署效率。
人类首次机械飞升!马斯克豪言Neuralink击败全人类
就在刚刚,马斯克再放豪言! 马斯克发推表示:为了进一步增强能力, Noland可能是第一个接受Neuralink升级,或植入双芯片的人。 Noland Arbaugh是全球首位接受该手术的人。
突发!arXiv CS新规:未经同行评审,一律不收
arXiv重磅新规! 从现在起,arXiv中的CS板块,关于「综述/调研」和「立场」类的论文,全部经由同行评审后,才可以被收录。 也就是说,以后不带「同行评审通行证」,就别想上车!
锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验
大型扩散模型(如 Stable Diffusion)让我们能够从文字生成高保真的图像。 但当用户希望「生成我和我的朋友们在不同场景中的照片」时,现有的个性化生成方法(如 DreamBooth、IP-Adapter)仍面临两个根本问题:缺乏交互性:无法自由控制人物的空间位置、大小与关系。 难以扩展到多主体:每多一个人,内存和算力就线性增长。
AI首胜人类博士,顶会论文秒变代码!港大90后开源刷爆8k星
在AI领域,学术论文往往承载了算法、模型架构等方面的最前沿突破。 但想要真正理解论文的核心知识,并成功复现其中的算法和实验结果,却经常面临巨大挑战。 问题的主要症结,在于「关键实现细节」上的缺失!
谁杀死了那篇好论文?AI顶会乱象:好论文被刷,低分论文被捧上天
在AI顶会上当审稿人,本该是一份体面又严肃的工作。 但对这位AAAI 2026的评审来说,今年的经历却奇怪得离谱。 他在Reddit上写道:这是我见过最混乱的审稿流程。
断网后才发现脑子空空?132页论文实证:「脑腐」或成AI头号内伤
所有人都在加速拥抱AI,却几乎没人追问:它把我们的大脑变成什么? X用户Alex Prompter,刚啃完了一篇132页的研究,结论足以让任何创作者、营销人、创业者后背发凉。 独立研究人员、高级项目经理Rénald Gesnot,从认知、社会、伦理与哲学等多维视角审视AI如何重塑人的思维。
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
本文作者来自北京大学和阿里通义万相实验室。 其中论文第一作者是汤昊,北京大学 2022 级博士生,发表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。 指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。
新手指南:跟踪LLM应用程序中的token使用
译者 | 布加迪审校 | 重楼引言在构建大语言模型应用程序时,token就是金钱。 如果你曾经使用过像GPT-4这样的 LLM,可能有过这样的经历:查看账单时纳闷“费用怎么这么高? ” 你进行的每次API调用都会消耗token,这直接影响延迟和成本。
硅谷今夜学中文!Cursor被曝「套壳」国产,AI顶级人才全是华人
如果你关注最近硅谷的AI圈子,你会发现最近出现一个神奇的现象。 当国内都在学英语看文献的时候,国外的AI圈子都说中文了! 简直是倒反天罡。
内存直降50%,token需求少56%!用视觉方式处理长文本
在处理短文本时,大语言模型(LLM)已经表现出惊人的理解和生成能力。 但现实世界中的许多任务——如长文档理解、复杂问答、检索增强生成(RAG)等——都需要模型处理成千上万甚至几十万长度的上下文。 与此同时,模型参数规模也从数十亿一路飙升至万亿级别。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉