模型
谢赛宁团队提出BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式!
BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。 与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。 此外还发布了包含 2000 万张带详细标题的图片(BLIP3o Pretrain Long Caption)和 400 万张带短标题的图片(BLIP3o Pretrain Short Caption)的数据集。
5/20/2025 9:08:59 AM
震撼全网,AlphaEvolve矩阵乘法突破被证明为真!开发者用代码证实
就在刚刚,有人用Claude写代码证实——谷歌DeepMind的AlphaEvolve求解矩阵乘法的突破,100%正确! 即使已经过去好几天,AI圈依然有许多人沉浸在这个AI的余震中。 在时隔半个世纪(56年)后,AlphaEvolve将4×4的复数矩阵计算次数,从1969年Strassen的49次减少到了48次。
5/20/2025 9:07:00 AM
英伟达新“桌面超算”800GB大内存,满血DeepSeek R1能装1个半
英伟达官宣新办公室落户中国台湾省台北市,但居然是从太空飞下来的吗? 当然,这只是黄仁勋在Computex大会上展示的CG特效,但背后还有这样一层意思:如此逼真的画面中,只有1/10的像素是显卡渲染的,剩下全部内容为AI预测。 当初是GeForce显卡让AI成为现实,现在AI反过来给GeForce显卡带来颠覆性变革。
5/20/2025 9:02:00 AM
Poe2025春季AI模型使用趋势报告:OpenAI与Anthropic双雄争霸 可灵异军突起
全球知名AI模型集成平台Poe发布《2025春季AI模型使用趋势报告》,基于平台上数百万次用户交互,深入分析了文本、图像、视频、音频和推理模型的需求与使用份额变化。 报告揭示了今年以来OpenAI GPT-4.1、Google Gemini2.5Pro、Kuaishou Kling等突破性模型的快速崛起,以及AI使用模式的深刻转变。 AIbase综合最新动态,独家解读这一报告的核心亮点及其对AI生态的深远影响。
5/19/2025 5:00:45 PM
AI在线
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。 第一作者为匹兹堡大学的一年级博士生薛琪耀。 当前文本生成视频(T2V)技术正在从注重视觉质量与模型规模的扩展阶段,迈向更关注物理一致性与现实合理性的推理驱动阶段。
5/19/2025 3:00:38 PM
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来,高带宽域的设计对提升大模型训练效率至关重要。 然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制:以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂、不易扩展规模;以GPU为中心的HBD(如 Google TPUv3和Tesla Dojo)存在严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。
5/19/2025 2:57:44 PM
参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
新架构选择用KAN做3D感知,点云分析有了新SOTA! 来自哈尔滨工业大学(深圳)和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN,在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案,PointKAN具有更强的学习复杂几何特征的能力。
5/19/2025 2:56:45 PM
Qwen发布全新偏好建模模型系列WorldPM模型
阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。 这一发布引发了全球AI开发者社区的广泛关注,被认为是偏好建模领域的重要突破。 WorldPM:偏好建模的规模化新探索WorldPM(World Preference Modeling)是Qwen团队在偏好建模领域的最新力作。
5/19/2025 11:01:05 AM
AI在线
阿里通义实验室推出 ZeroSearch:让大模型无需 API 自我 “搜索”
在人工智能的迅速发展中,如何提升大语言模型(LLM)的检索和推理能力成为研究的热门话题。 近日,阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架,它能够使大型语言模型自己模拟搜索引擎,从而在没有实际搜索引擎的情况下,提升其推理能力。 传统的搜索引擎虽然强大,但在训练大模型时,它们的输出质量常常不可预测,可能导致训练过程中的噪声和不稳定。
5/19/2025 11:01:05 AM
AI在线
Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声
Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。 这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。 该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。
5/19/2025 10:01:05 AM
AI在线
字节发布 Seed1.5-VL 视觉-语言多模态大模型,20B 参数狂揽 60 项公开评测基准中 38 项 SOTA!
5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。 同时,Data Agent 和 Trae 等产品也有了新进展。 今天给大家介绍的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。
5/19/2025 9:07:00 AM
矩阵乘法可以算得更快了!港中文10页论文证明:能源、时间均可节省
天下苦大模型矩阵乘法久矣。 毕竟不论是训练还是推理过程,矩阵乘法作为最主要的计算操作之一,往往都需要消耗大量的算力。 那么就没有一种更“快、好、省”的方法来搞这事儿吗?
5/19/2025 9:05:00 AM
OpenAI 新一代模型GPT-5将集成多项功能,致力于成为全能助手
在人工智能领域的最新动态中,OpenAI 研究副总裁 Jerry Tworek 近日在 Reddit 上透露了即将推出的下一代基础模型 ——GPT-5的最新信息。 这款新模型被形象地称为 “All in One”,将整合多个现有产品,包括 Codex、Operator、Deep Research 和 Memory,以减少用户在不同工具之间切换的繁琐。 在此次问答活动中,Tworek 分享了 Codex 的开发背景以及它在提升编程效率方面的成就。
5/19/2025 9:00:55 AM
AI在线
最新!OpenAI:GPT-5将实现大统一,Codex最佳实践是这样的
Codex发布后,OpenAI Codex在Reddit举行了AMA(Ask Me Anything)活动在这场 1 小时的 AMA 中,Codex 核心研发和研究负责人围绕 :为什么先推云端代理、CLI 为何用 TypeScript、未来多语言绑定与 IDE 插件、GPT-5 与 Operator 的整合、定价与 API 计划、安全沙箱、最佳实践 等问题给出了清晰路线图:Codex-1 目前是「云端沙箱 ChatGPT 原生入口」的研究预览,面向大仓库 测试驱动工作流效果最佳;CLI 走开源 API 计费,本体将在 Plus/Pro 长期集成并提供“弹性”付费;短期不会给代理外网,但已支持 --approval-mode full-auto;他们希望 10 年内实现“按规格即可落地可靠软件”,并把 Codex、Operator、Deep Research、Memory 等工具融合为一套完整代理体系详细 Q&ACodex产品定位与长期愿景1 .为什么先做云端本地 CLI 因单机算力与线程受限,只适合轻量任务;云端可并行跑多个容器并隔离风险,是先发形态10 年愿景:给出“合理规格说明”即可在可观时间内得到可靠软件;云端并行 沙箱是实现路径。 2 .GPT-5 与 Codex、Operator 等工具是什么关系?
5/19/2025 8:58:00 AM
Llama 4万亿巨兽延期,80%核心元老集体辞职?
Llama 4团队约80%的人集体辞职? 昨天,来自AI明星初创Prime Intellect的机器学习研究员一则惊天爆料,彻底点燃了AI圈。 就连WSJ几天前的独家报道,也被人们翻了出来。
5/19/2025 8:57:00 AM
被低估的ChatGPT新功能,10分钟搞定DeepSeek代码库深度研究
大概5天前,ChatGPT「悄悄」上线了一个新功能,就是Deep Research功能可以直连Github仓库。 这个功能刚推出时,第一反应是给程序员用的,但是最近使用后才发现这个功能非常强大——应用场景远比想象的更加广阔。 不仅仅是审查代码,或者生成报告,能够连接Github的ChatGPT在重度使用后,效果还是超乎想象的——几乎可以进行任何方向的深度研究。
5/19/2025 8:55:00 AM
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
强化学习(RL) 真实搜索引擎,可以有效提升大模型检索-推理能力。 但问题来了:一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。 另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。
5/19/2025 8:47:00 AM
大模型再现黑马!英伟达开源Llama-Nemotron系列模型,效果优于DeepSeek-R1
近日,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。 该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。 这些模型不仅具备超强的推理能力,还为企业使用提供开放许可。
5/19/2025 8:41:00 AM
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊