理论
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
长视频理解是多模态大模型关键能力之一。 尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。 近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。
6/3/2025 2:15:33 PM
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
李飞飞空间智能创业公司World Labs,开源一项核心技术! Forge渲染器,可在桌面端、低功耗移动设备、XR等所有设备上实时、流畅地渲染AI生成的3D世界。 具体来说,Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅。
6/3/2025 2:14:59 PM
大神卡帕西这么用ChatGPT:日常4o快又稳,烧脑切o4做后盾,o3只当备胎用
OpenAI模型命名混乱没规律,以至于打开ChatGPT后,好多人都不知道到底该用哪个模型来完成任务。 不过别慌,现在咱们有救了! 刚刚,大神卡帕西在𝕏上发布了一篇使用ChatGPT时的模型选择指南。
6/3/2025 2:13:56 PM
终于可以免费使用Sora了!微软版Sora今日开放
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)微软 Bing 越来越不像搜索了! 微软周一宣布,将在 Bing 应用程序中引入视频创建器 (Bing Video Creator ),该应用程序使用 OpenAI 的 Sora 模型让用户根据文本提示生成视频。 更重要的是,这也就意味着一直以来只有付费用户才能使用的 Sora 视频生成功能,而现在,Sora 与微软必应的集成标志着其首次免费开放。
6/3/2025 1:26:52 PM
云昭
Gartner高级顾问总监:从生产力陷阱到财务效率的理性转向,生成式AI的降本困境与破局之道
谈到2025年科技圈的热点,非生成式AI莫属。 可以说,生成式AI已经成为推动企业业务创新和数字化转型的核心焦点。 根据Gartner调研显示,过去两年中,全球企业IT预算持续收缩,但AI与安全领域的投入逆势增长。
6/3/2025 1:21:37 PM
X和OpenAI加入Rust重写潮!马斯克宣布:基于Rust的X有了“比特币风格加密”,惨被币圈技术大佬群嘲:根本不懂!
马斯克又放大招了——这次轮到 X 也加入 Rust 重写潮了! 他宣布,X 内置的私信功能 XChat 已经完成 Rust 重构,并声称采用了“比特币风格加密”。 图片这句“比特币风格加密”,听上去是一种“不明觉厉”的术语,普通用户只觉得大概是更安全了,而玩币圈的技术党则一头雾水。
6/3/2025 1:00:12 PM
云昭
极简设计铸就卓越性能:Alita 通用智能体的进化思考
大家好,我是肆〇柒。 今天,我要和大家聊一篇极具创新性的论文 ——《ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION》。 该论文由普林斯顿大学、清华大学、上海交通大学等多所顶尖高校等机构提出。
6/3/2025 9:31:16 AM
肆零柒
微信自研高性能推理计算引擎 XNet-DNN:跨平台 GPU 部署大语言模型及优化实践
作者 | yannicXNet-DNN 是微信高性能计算团队自主研发的一款全平台神经网络推理引擎。 我们在 XNet 的 RCI 基础设施之上构建了全平台的 GPU LLM . 推理能力。
6/3/2025 9:25:00 AM
腾讯技术工程
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型(VLMs)也可能答错。 究其根本,还是当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。
6/3/2025 9:16:00 AM
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
让 AI 实现自我进化是人类一直以来的梦想。 早在 2003 年,AI 先驱、LSTM 之父 Jürgen Schmidhuber 就提出过一种名为「哥德尔机(Gödel Machine)」的构想——它使用一种递归的自我改进协议,如果能够证明新代码的策略较佳,就会重写自己的代码。 但这终究只是一个假想。
6/3/2025 9:14:00 AM
CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
本文共同第一作者为纽约大学研究生 Hongyi Zeng 和Wenxuan Liu。 合作作者为 Tianhua Xia、Jinhui Chen、Ziyun Li。 通讯作者为纽约大学电子工程系和计算机系教授 Sai Qian Zhang,研究方向为高效人工智能,硬件加速和增强现实。
6/3/2025 9:12:00 AM
人类程序员依然远强于LLM:为什么说 AI 目前还差点火候
这是一篇来自 Antirez(Redis 之父Salvatore Sanfilippo)的博文,分享给大家人类程序员依然技高一筹:为什么说 AI 目前还差点火候这篇短文,是想聊聊为什么我觉得咱们人类程序员,比起现在大火的 LLM(大语言模型)还是要强太多。 先声明,我可不是什么 AI 反对者,了解我或者关注我动态的朋友应该都清楚。 LLM 我经常用,就像今天,我会用它来碰撞灵感、做代码评审、看看有没有比我最初构想更好的方案、探索那些快要超出我知识边界的领域,诸如此类吧。
6/3/2025 9:11:38 AM
AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?
编程智能体杀疯了! 不仅能协助写代码,如今编程智能体甚至能实现自我「进化」! 最近,Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作,推出了自我改进的智能体——「达尔文-哥德尔机」(Darwin Gödel Machine,简称DGM)。
6/3/2025 9:10:00 AM
逆向工程:ChatGPT 的记忆是如何工作的
这篇文章是名为eric 工程师对ChatGPT记忆系统的深度逆向工程和技术实现推测。 它详细拆解了“可保存记忆”和包含“当前会话历史”、“对话历史”、“用户洞察”三个子系统的“聊天历史”,分析了它们的工作原理、可能的实现方案(如向量数据库、聚类算法),并探讨了这些记忆系统如何显著提升ChatGPT的用户体验,认为“用户洞察”是体验提升的关键文章深度剖析了“用户洞察”(User Insights)高级记忆系统,分析了ChatGPT如何从你的多轮对话中自动学习、总结你的专业背景(如对Rust编程的深入理解)、知识领域乃至沟通偏好,并附上置信度和时间范围,悄然注入后续对话的上下文中。 这正是ChatGPT能提供“千人千面”且高度相关回复的核心秘密地址:,这里做一个重点梳理ChatGPT的记忆系统:不止一种,而是一套组合拳Eric发现,ChatGPT的记忆并非单一系统,而是主要由两大部分构成:“可保存记忆(Saved Memory)”和“聊天历史(Chat History)”。
6/3/2025 9:08:49 AM
AI竟会「自己认错」?破解多智能体协作「罗生门」,斩获ICML 2025 Spotlight
你打造了一支「超级AI战队」——战队里每个AI都各司其职:有的收集信息、有的负责判断,还有的协调执行,一起协作攻克复杂任务。 这个愿望看似天衣无缝,结果却往往以失败告终。 问题就出在:当「问题」出现的时候,如何知道是哪个AI干的?
6/3/2025 9:08:00 AM
硅谷今夜集体失眠!互联网女皇340页AI报告猛料刷屏,大佬熬夜头秃
互联网女皇、传奇投资者Mary Meeker,再度出山! 曾经,女皇的《互联网趋势报告》一出,整个科技圈都要抖三抖。 硅谷大佬觉都不睡了,都要连夜研读这份刷屏圈内头条的重磅报道。
6/3/2025 9:06:00 AM
免费使用Sora!微软发布Bing Video Creator
今天凌晨1点,微软在官网发布了Bing搜索引擎全新功能——Bing Video Creator。 Bing Video Creator由OpenAI的文生视频模型Sora提供技术支持,通过自然语言就能生成写实、风景、卡通、影视等各种视频。 同时会免费为用户提供该服务,生成速度分为快速和标准两种模式,初始有10次快速生成机会,用完后可消耗 100 微软奖励积分继续使用,或继续选择标准速度。
6/3/2025 9:05:29 AM
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。 新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。 论文链接:,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。
6/3/2025 9:05:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型