模型

超过谷歌搜索，成本猛降80%！阿里开源创新大模型搜索引擎

昨天，阿里巴巴开源了一种创新大模型搜索引擎——ZeroSearch。 ZeroSearch是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。主要利用了大模型在大规模预训练过程中积累的丰富知识，将其转化为一个检索模块，能够根据搜索查询生成相关内容。

5/9/2025 8:31:11 AM

Mistral 推出 Medium 3 模型：性能卓越且成本低廉，专为企业需求而生

Mistral 正式发布了其3系列中的中等量级模型 ——Medium3。该模型以其先进的性能和相对较低的运营成本，受到业界的广泛关注。 Mistral 强调，Medium3不仅在性能上与市场上的顶尖产品相竞争，而且在企业应用方面具有多种实用功能。

5/8/2025 6:00:57 PM AI在线

一年狂发22个模型！阶跃星辰CEO姜大昕：AGI的秘密武器不是算力，而是让AI学会“自己教自己”！

在近期的媒体沟通会上，阶跃星辰的创始人兼 CEO 姜大昕分享了公司在多模态人工智能领域的最新进展以及未来的发展规划。阶跃星辰成立于2023年，致力于开发通用人工智能（AGI），目前已发布22款自研模型，其中16款为多模态模型，这一成就使其在行业内被称为 “多模态卷王”。姜大昕表示，公司将在未来几个月内推出一款新型推理模型 Step R1，并计划发布更先进的 Step 图片编辑模型。

5/8/2025 6:00:56 PM AI在线

Gemini2.0Flash图像生成升级:视觉质量大幅提升，文字更清晰

Google于近日宣布，旗下Gemini2.0Flash图像生成功能迎来重要升级，用户现可通过Google AI Studio体验最新模型:gemini-2.0-flash-preview-image-generation。据介绍，本次升级带来三大核心改进:更高的视觉质量，相较于早期实验版本整体图像表现更自然、细节更丰富;文字渲染更精准，解决了AI生成图像中文字扭曲、不清晰等问题;内容安全机制优化，减少了不必要的生成内容拦截，提高生成效率与可用性。此次更新体现了Google持续推动Gemini模型在多模态生成能力上的突破，也为AI创作者提供了更实用、更精确的图像生成工具。

5/8/2025 2:00:47 PM AI在线

Fastino 融资 1750 万美元，利用廉价游戏 GPU 训练 AI 模型

在当今科技行业，AI（人工智能）正迅速崛起，许多巨头公司都在大谈特谈拥有万亿参数的 AI 模型，这些模型通常需要耗费巨资搭建庞大的 GPU 集群。然而，Fastino 却走了一条不同的道路，利用成本低廉的游戏 GPU 进行 AI 模型训练，并成功获得了由 Khosla Ventures 领投的1750万美元融资。这一创新的方式使得 Fastino 能够在资源有限的情况下，实现高效的 AI 模型开发。

5/8/2025 12:01:07 PM AI在线

AI学会“无师自通”？AZR让模型左右互搏，越打越聪明！

一项名为Absolute Zero Reasoner（AZR）的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式，让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证，并通过自我博弈(self-play)循环提升编程与数学能力。基于Qwen2.5-7B模型的测试数据显示，AZR在编程能力上提升了5分，数学能力提升了15.2分(满分100分)，展现了其在AI自进化领域的巨大潜力。

5/8/2025 10:00:55 AM AI在线

北大、清华联合发布！大模型逻辑推理能力新突破

在当前人工智能领域，大语言模型（LLMs）取得了显著成就，但其逻辑推理能力依然显得不足。为了提升这一能力，来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员，联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文，聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。研究表明，大语言模型在处理复杂逻辑推理时存在明显的短板。

5/8/2025 10:00:54 AM AI在线

开源即屠榜！UniME多模态框架登顶MMEB全球训练榜，刷新多项SOTA纪录

告别CLIP痛点，更懂语义关联的跨模态理解新SOTA来了！格灵深瞳、阿里ModelScope团队，以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME，一经推出就刷新MMEB训练榜纪录。 △图片于2025年5月6日08:00 UTC 8截取UniME作为一个创新性的两阶段框架，所展现的卓越的组合理解力，帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力，并在多个任务中达到了新的SOTA。

5/8/2025 9:31:50 AM

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

5/8/2025 9:16:00 AM

Mistral 推出新 AI 模型 Mistral Medium 3：高效与性能兼得

法国人工智能初创公司 Mistral 近日发布了其新款 AI 模型 ——Mistral Medium3。这款模型在追求高效率的同时，依然保持了出色的性能表现，成为市场上的一大亮点。 Mistral 的数据显示，Mistral Medium3在所有基准测试中的表现达到了或超过了竞争对手 Anthropic 的 Claude Sonnet3.7模型的90%。

5/8/2025 9:00:44 AM AI在线

字节开源图像编辑黑科技！1/30参数1/13数据，性能提升9.19%

字节开源图像编辑新方法，比当前SOTA方法提高9.19%的性能，只用了1/30的训练数据和1/13参数规模的模型。做到这一切无需额外预训练任务和架构修改，只需要让强大的多模态模型（如GPT-4o）来纠正编辑指令。这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题，通过构建更有效的编辑指令提升编辑效果。

5/8/2025 8:57:59 AM 量子位

从"快思考"到"慢思考"：大型语言模型的推理能力革命

在人工智能快速发展的今天，大型语言模型(LLM)已经在多个领域展现出惊人的能力。然而，当面对需要深度思考和复杂推理的任务时，传统LLM往往表现出明显的局限性。这种局限性促使研究者们转向探索一种新型的模型范式——基于"慢思维"的推理LLM。

5/8/2025 2:02:02 AM 葱葱

小巧却强大！IBM发布新语言模型Granite 4.0 Tiny Preview：长上下文处理

IBM 发布了 Granite4.0Tiny Preview，这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。该模型不仅具备高效的计算能力，还为开源社区提供了一个值得关注的实验平台。高效的性能与极小的内存需求 Granite4.0Tiny 在 FP8精度下，能够在消费级硬件上运行多个长上下文（128K）的并发任务，适用于市面上价格低于350美元的 GPU。

5/7/2025 6:00:54 PM AI在线

清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

近日，清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC（人工智能生成内容）机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖，显示出其在全球 AI 研究领域的前沿地位。 AIGC 技术近年来迅速崛起，从生成式文本模型到视频生成技术，其应用范围不断扩大。

5/7/2025 6:00:26 PM AI在线

清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP

近日，星动纪元宣布，已与清华大学叉院的 ISRLab 合作，开源了首个 AIGC（生成式人工智能内容）机器人大模型 ——VPP(视频预测策略)。这一创新成果有望在机器人领域带来革命性的进展。 VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中，解决了以往机器人推理速度慢的问题。

5/7/2025 5:00:44 PM AI在线

新兴混合 AI 模型 CausVid:几秒钟内生成高质量视频

近日，麻省理工学院计算机科学人工智能实验室（CSAIL）与 Adobe Research 联合研发的创新性 AI 模型 CausVid 引起了广泛关注。这一混合模型可以在几秒钟内生成高质量视频，标志着视频创作领域的一次重大技术突破。创新的技术架构CausVid 的设计理念颠覆了传统的视频生成方式。

5/7/2025 2:00:54 PM AI在线

一个LoRA实现GPT-4o级图像编辑！浙大哈佛新模型冲上Hugging Face榜二

基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点，从Prompt2prompt到InstructPix2Pix，从EmuEdit再到最新的GPT4o，都在不断的拔高AI图像编辑的水平。总的来说，这些模型可以归为两大类：一种是免训练（training-free）图像编辑，一种是基于训练或微调的图像编辑。免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现，尽管省去了训练的耗费，但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。

5/7/2025 1:51:49 PM 新智元

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

Mixture-of-Experts（MoE）在推理时仅激活每个 token 所需的一小部分专家，凭借其稀疏激活的特点，已成为当前 LLM 中的主流架构。然而，MoE 虽然显著降低了推理时的计算量，但整体参数规模依然大于同等性能的 Dense 模型，因此在显存资源极为受限的端侧部署场景中，仍然面临较大挑战。现有的主流解决方案是专家卸载（Expert Offloading），即将专家模块存储在下层存储设备（如 CPU 内存甚至磁盘）中，在推理时按需加载激活的专家到显存进行计算。

5/7/2025 1:49:19 PM 机器之心

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

超过谷歌搜索，成本猛降80%！阿里开源创新大模型搜索引擎

Mistral 推出 Medium 3 模型：性能卓越且成本低廉，专为企业需求而生

一年狂发22个模型！阶跃星辰CEO姜大昕：AGI的秘密武器不是算力，而是让AI学会“自己教自己”！

Gemini2.0Flash图像生成升级:视觉质量大幅提升，文字更清晰

​Fastino 融资 1750 万美元，利用廉价游戏 GPU 训练 AI 模型

AI学会“无师自通”？AZR让模型左右互搏，越打越聪明！

北大、清华联合发布！大模型逻辑推理能力新突破

开源即屠榜！UniME多模态框架登顶MMEB全球训练榜，刷新多项SOTA纪录

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

Mistral 推出新 AI 模型 Mistral Medium 3：高效与性能兼得

字节开源图像编辑黑科技！1/30参数1/13数据，性能提升9.19%

从"快思考"到"慢思考"：大型语言模型的推理能力革命

小巧却强大！IBM发布新语言模型Granite 4.0 Tiny Preview：长上下文处理

清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

​清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP

新兴混合 AI 模型 CausVid:几秒钟内生成高质量视频

一个LoRA实现GPT-4o级图像编辑！浙大哈佛新模型冲上Hugging Face榜二

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

Fastino 融资 1750 万美元，利用廉价游戏 GPU 训练 AI 模型

清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP