模型
从"快思考"到"慢思考":大型语言模型的推理能力革命
在人工智能快速发展的今天,大型语言模型(LLM)已经在多个领域展现出惊人的能力。 然而,当面对需要深度思考和复杂推理的任务时,传统LLM往往表现出明显的局限性。 这种局限性促使研究者们转向探索一种新型的模型范式——基于"慢思维"的推理LLM。
5/8/2025 2:02:02 AM
葱葱
小巧却强大!IBM发布新语言模型Granite 4.0 Tiny Preview:长上下文处理
IBM 发布了 Granite4.0Tiny Preview,这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。 该模型不仅具备高效的计算能力,还为开源社区提供了一个值得关注的实验平台。 高效的性能与极小的内存需求 Granite4.0Tiny 在 FP8精度下,能够在消费级硬件上运行多个长上下文(128K)的并发任务,适用于市面上价格低于350美元的 GPU。
5/7/2025 6:00:54 PM
AI在线
清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。 这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。 AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。
5/7/2025 6:00:26 PM
AI在线
清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP
近日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC(生成式人工智能内容)机器人大模型 ——VPP(视频预测策略)。 这一创新成果有望在机器人领域带来革命性的进展。 VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。
5/7/2025 5:00:44 PM
AI在线
新兴混合 AI 模型 CausVid:几秒钟内生成高质量视频
近日,麻省理工学院计算机科学人工智能实验室(CSAIL)与 Adobe Research 联合研发的创新性 AI 模型 CausVid 引起了广泛关注。 这一混合模型可以在几秒钟内生成高质量视频,标志着视频创作领域的一次重大技术突破。 创新的技术架构CausVid 的设计理念颠覆了传统的视频生成方式。
5/7/2025 2:00:54 PM
AI在线
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点,从Prompt2prompt到InstructPix2Pix,从EmuEdit再到最新的GPT4o,都在不断的拔高AI图像编辑的水平。 总的来说,这些模型可以归为两大类:一种是免训练(training-free)图像编辑,一种是基于训练或微调的图像编辑。 免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现,尽管省去了训练的耗费,但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。
5/7/2025 1:51:49 PM
新智元
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。 然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。 现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如 CPU 内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行计算。
5/7/2025 1:49:19 PM
机器之心
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。
5/7/2025 1:46:34 PM
ComfyUI品牌焕新升级,推出原生API节点
ComfyUI于2025年5月6日宣布完成品牌升级,同步推出原生API节点功能。 这一更新不仅为ComfyUI带来了全新的视觉标识,还通过集成11个主流在线视觉AI模型、65个新节点,显著提升了其图像和视频生成能力。 据官方介绍,用户无需自行申请API密钥,仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。
5/7/2025 12:01:06 PM
AI在线
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
5/7/2025 10:12:52 AM
机器之心
英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!
英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
5/7/2025 10:10:36 AM
南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!
Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观,显著提升遮挡场景下的 3D 重建质量。 给定图像中 部分可见的物体,Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。 相关链接论文:::即将开放...模型:: 的示例结果。
5/7/2025 10:09:49 AM
AIGC Studio
掷30亿美元,OpenAI史上最大收购案!
OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元
刚刚,Gemini 2.5 Pro升级,成编程模型新王
你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM
OpenAI发布新一代GPT-4.1模型,和智谱Z.ai撞期
在人工智能领域,OpenAI 于今日正式推出其最新的 GPT-4.1模型,随之而来还有两个小型版本:GPT-4.1mini 和 GPT-4.1nano。 这一系列新模型的性能相较于前一代 GPT-4o 和 GPT-4o mini 有了显著提升,尤其在编码能力和指令跟踪方面表现突出。 此外,GPT-4.1还具备高达100万个上下文 tokens 的支持能力,极大扩展了处理信息的范围。
5/7/2025 10:01:30 AM
AI在线
思科与 Meta 携手推出网络安全新武器:Foundation-sec-8B 大模型
思科(Cisco)与 Meta 的合作为我们带来了一个令人振奋的新进展。 他们共同发布了名为 Foundation-sec-8B 的开源大型语言模型(LLM),该模型专门针对网络安全领域,具有80亿个参数。 这一创新产品不仅展现了两大科技巨头的强强联手,也预示着网络安全技术的新纪元。
5/7/2025 10:01:04 AM
AI在线
机器人公司Dyna Robotics发布新型AI模型DYNA-1,助力机器人手臂实现更复杂任务
Dyna Robotics 是一家专注于人工智能的机器人初创公司,近期宣布将推出一款名为 Dynamism v1(DYNA-1)的全新 AI 模型。 该模型被誉为 “重大突破”,将使机器人手臂在无需人类干预的情况下,能够执行更高精度的任务,并且持续的工作时间更长。 为了验证 DYNA-1的有效性,Dyna Robotics 让机器人进行折叠餐巾的测试。
5/7/2025 10:01:04 AM
AI在线
上线仅7天,阿里通义千问3问鼎全球开源模型
近日,阿里巴巴推出的开源大模型 “通义千问3”(Qwen3)在上线仅七天后,便成功夺得了全球开源模型的冠军地位。 这一成果是在国际权威大模型评测榜 LiveBench 最新发布的排名中取得的,标志着阿里在人工智能领域又一次取得了重要突破。 据悉,通义千问3在指令遵循能力方面,表现超越了诸多顶级闭源模型,如 o3High、o4-Mini High 和 Gemini2.5pro,成功跻身全球第一的位置。
5/7/2025 10:01:04 AM
AI在线
资讯热榜
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
微软发布 700 个真实 AI 案例,探索智能化工作新模式
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构