理论
一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA
黑客帝国中的「矩阵」,已照进现实。 指尖轻点,一个细节满满、物理规则完美运转的虚拟世界就此诞生。 这个曾经只在科幻大片出现的场景,如今「空间智能」就帮人类实现了。
突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道
本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。 第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室(MILA)的博士生吕福源。 当训练成本飙升、数据枯竭,如何继续激发大模型潜能?
AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板
原本以为,大模型考过了医学考试,离成为“AI医生”也就差临门一脚。 没想到,牛津大学最新这项研究,却狠狠给了一记当头棒喝。 图片论文地址:“AI诊断准确率高达99%!
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
“先推理、再作答”,语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要“动脑筋”的事情上面展现出了较高的水平。
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。 其模型性能与DeepSeek-R1媲美!
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
用AI无限扩展《我的世界》,动动鼠标、键盘即可搞定! 一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。 也就是说,在砍掉树木之前,树后面的内容还是不存在的。
OpenAI新领导上任第一把火:DeepResearch一个小改动被网友狂赞!终于可导出PDF网友:啥时候能导出ChatGPT?
编辑 | 云昭就在刚刚! OpenAI 为其 Agent 代表作 Deep Research 功能推出了一项全新的 PDF 导出功能,允许用户下载格式完整的研究报告,包括表格、图片和可点击的引用链接。 这一看似不起眼的小动作意外引来了大批量用户的欢呼!
C++之父:重点没在下一个版本!而是如何写好现代版的C++
采访 | Tim Anderson整理 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,5月6-7日,于慕尼黑举行的Qt World Summit大会上,C 之父Bjarne Stroustrup在其《21世纪的C 》主题演讲前特别接受了外媒DevClass的专访,访谈中涉及到很多,比如:如何写出现代风格的C ? 为什么替代这门语言很难? AI潜在的风险,以及为何拥有多套略有差异的编译器反而是一件好事?
常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。 随着深度学习模型规模的爆炸式增长,它们在各种任务上展现出令人惊叹的性能。 然而,庞大的参数量和计算需求也带来了新的挑战:如何在资源受限的设备上高效部署这些模型?
LLM 学习笔记:最好的学习方法是带着问题去寻找答案
作者:huaxing知其然,然后知其所以然。 本文主要是对学习赛博活佛Andrej Karpathy 7个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。 从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到LLM训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对LLM的理解;再谈谈AI的最新重大进展MCP;以及作为JAVAer,在Java领域有哪些前沿能力去整合LLM。
月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!
近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
200M参数吊打商业巨头!浙大-哈佛开源ICEdit,用1%资源实现图像编辑自由!一句指令生成海报级修图方案
浙江大学联合哈佛大学提出一种高效的基于指令的图像编辑框架ICEdit,与以往的方法相比,ICEdit仅需1%的可训练参数(200M)和0.1% 的训练数据(50k),就展现出强大的泛化能力,能够处理各种编辑任务。 相比 Gemini、GPT4o 等商业模型,我们更加开源,成本更低,速度更快(处理一幅图像大约需要 9 秒),性能强大。 使用ComfyUI-nunchaku,仅需 4 GB VRAM GPU 就足以尝试我们的模型!
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
Sam Altman最新万字专访:2025,Agent智能体应用大年
今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。 OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。 Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
GPT-5研发内幕首曝!OpenAI首席研究官:AGI指日可待
GPT-5到哪一步了? 最近,GPT-4.1核心研究员Michelle Pokrass透露,构建GPT-5的挑战在于,在推理和聊天之间找到适当的平衡。 她表示,「o3会认真思考,但并不适合进行随意聊天。
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。 以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
如何规划AI提示词搜索需要的内容
如何规划AI提示词搜索需要的内容开发者在规划AI提示词时,需要考虑多个因素以确保能够从AI工具中获得高质量、准确且符合预期的输出。 以下是一些关键步骤和策略,以及具体的例子来说明如何规划有效的AI提示词。 明确角色与任务首先,应当明确AI在对话中的角色以及它需要完成的任务。
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
科学界的一个共识是:即使是最复杂的现代人工智能,也难以媲美人类大脑的表现和效率。 研究者经常从大自然中寻找灵感,了解如何在人工智能领域取得进步,例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。 虽然人工神经网络近年来让人工智能取得了非凡的成就,但它们仍然是其生物对应物的简化表征。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉