数据

一个LoRA实现GPT-4o级图像编辑！浙大哈佛新模型冲上Hugging Face榜二

基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点，从Prompt2prompt到InstructPix2Pix，从EmuEdit再到最新的GPT4o，都在不断的拔高AI图像编辑的水平。总的来说，这些模型可以归为两大类：一种是免训练（training-free）图像编辑，一种是基于训练或微调的图像编辑。免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现，尽管省去了训练的耗费，但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。

5/7/2025 1:51:49 PM 新智元

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

本周三，知名 AI 创业公司，曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习，用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练，实现了超越 o3 和 o4-mini 的顶级推理表现。对此，机器学习社区表现出了极大的兴趣。

5/7/2025 1:46:34 PM

颠覆传统RAG，创新大模型检索增强—Insight-RAG

RAG已经成为大模型的标题，但传统方法存在检索深度不足、难以整合多源信息等弊端，例如，传统 RAG 依赖表面相关性检索文档，容易忽略单个文档内深埋的信息。在法律协议中，会忽略微妙的合同条款；在商业报告里，错过隐藏的数据趋势。所以，Megagon实验室的研究人员提出了一种创新框架Insight-RAG，从而更好地捕捉任务特定的细微信息，整合的数据质量也更高。

4/29/2025 9:15:49 AM AIGC开放社区

猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火

今天凌晨，从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了！ Qwen3 模型依旧采用宽松的 Apache2.0 协议开源，全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。 HuggingFace 地址：地址：地址：：：，Qwen3 系列模型包含两款 MoE 模型以及六款密集模型，其中每一款又包含更多细分版本（比如基础版和量化版）：MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B；其中 235B 和 30B 分别是总参数量，22B 和 3B 分别是激活参数量。

4/29/2025 9:06:00 AM 机器之心

不用等R2了！第三方给新版DeepSeek V3添加深度思考，推理101秒破解7米甘蔗过2米门

DeepSeek即将发布R2？？坊间传闻越来越多了，且难辨真假。

4/29/2025 9:03:00 AM 量子位

DataBahn.ai推出“数据礁”智能化安全情报的新时代

在网络安全领域，如何快速而准确地处理海量数据是企业面临的一大挑战。最近，数据科技公司 DataBahn.ai 推出了一款名为 “数据礁”（Reef）的创新产品，旨在将高流量、高速度的安全监测信息转化为及时、可操作的情报，帮助企业做出更明智的决策。如今，企业收集的日志、警报和监测数据多达数 PB，但实际上仅分析不到5%。

4/28/2025 6:00:40 PM AI在线

Kimi-Audio开源横扫全场景，1300万+小时数据炼成语音世界“大一统”

昨天，kim发布了一款“万能型”音频大模型— Kimi-Audio，支持语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）、文本到语音（TTS）、语音转换（VC）和端到端语音对话。换句话说，它可以听、可以说、可以理解、可以对话，支持实时语音会话，多轮交流。图片一套架构，横扫音频全场景，开源可用。

4/28/2025 2:10:22 PM

1亿图文对！格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA

新的亿级大规模图文对数据集来了，CLIP达成新SOTA！格灵深瞳最新发布的高质量数据集RealSyn，不仅规模大——包含1亿组图文对，而且每张图片都同时关联多个真实和合成文本。所有的图像和句子都基于冗余进行了严格过滤，在确保数据质量的同时，引入基于簇的语义平衡采样策略，构建了可满足多样工作需求的三种规模大小的数据集：15M、30M、100M。

4/28/2025 9:14:00 AM 量子位

开源垂直领域高质量数据合成框架！专业QA自动生成，无需人工标注，来自上海AI Lab

垂域模型训练，高质量问答数据稀缺一直是行业痛点。在垂直领域大模型训练中，人工标注成本高昂，合成数据又常陷入质量与专业性难以兼得的困境。为此，上海AI实验室等提出GraphGen。

4/27/2025 9:16:00 AM

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注，在测试时做强化学习，模型数学能力暴增159%！清华和上海AI Lab周伯文团队用这样的方法，对模型进行了强化——结果模型在多个数据集上的成绩均大幅提升，尤其是Qwen-2.5-Math-7B，它做AIME 2024竞赛题的成绩直接提高了159%。实验过程中，强化学习的数据均由被训练的模型自身生成。

4/25/2025 9:20:00 AM

北大团队引领3D生成与对齐革新：OctGPT打破扩散模型垄断

近年来，智能三维形状生成（3D AIGC）技术迅速崛起，正成为推动数字内容创作革新的关键力量，特别是在游戏、影视、虚拟现实和工业设计等领域表现出巨大的应用潜力。随着技术的不断进步，三维内容的生成质量与效率持续提升，成为业界与学界广泛关注的焦点。最近，北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。

4/25/2025 9:15:00 AM 量子位

挤爆字节服务器的Agent到底啥水平？一手实测来了

“字节版Manus”有多能打？量子位实测在此。 △扣子智能体生成的活动介绍网页我们用光了一天的对话额度，考验了扣子空间（Coze Space）的信息整理、任务执行、工具调用等多项技能。

4/24/2025 9:27:00 AM 量子位

ICLR 2025 Oral | 训练LLM，不只是多喂数据，PDS框架给出最优控制理论选择

本文第一作者顾煜贤（）为清华大学计算机系四年级直博生，师从黄民烈教授，研究方向为语言模型的高效训练与推理方法。他曾在 ACL，EMNLP，ICLR 等会议和期刊上发表近 20 篇论文，多次进行口头报告，Google Scholar 引用数 2600 ，曾获 2025 年苹果学者奖学金。本篇论文为他在微软亚洲研究院实习期间所完成。

4/24/2025 9:25:00 AM 机器之心

清华&英伟达揭露ICML最佳论文隐藏数值问题，简单掩码模型是等价更好选择 | ICLR25

掩码离散扩散模型，可能并没有看上去那么厉害。这是清华及英伟达研究人员最新提出的观点。他们发现，作为离散扩散模型中性能最强的类别，掩码扩散模型可能有点“被包装过度”了。

4/23/2025 9:44:54 AM

Sebastian Raschka长文：DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

著名 AI 研究者和博主 Sebastian Raschka 又双叒叕更新博客了。这次的主题是《LLM 推理的强化学习现状》。博客地址： AI 社区很热闹，尤其是 Llama 4 和 GPT-4.5 等新旗舰模型的发布。

4/22/2025 9:12:00 AM 机器之心

让DeepSeek更可靠！清华提出Hyper-RAG，用超图提升知识建模精准度

大语言模型（Large Language Models, LLMs）在面对专业领域知识问题的时候，经常会生成偏离既定事实的回复，或模糊不清的回答，从而带来了潜在应用风险。检索增强生成（Retrieval-Augmented Generation, RAG）通过构建特定领域知识库，采用基于向量的检索技术来提取与给定查询相关的信息，从而使LLM能够生成更准确、更可靠的内容。然而，现有的基于图的RAG方法受限于仅能表示实体之间的成对关联，无法表示那些更复杂的多实体间的群组高阶关联，导致数据结构化过程中这些高阶信息的丢失。

4/21/2025 8:45:00 AM 新智元

最新万字长文！强化学习之父联合谷歌RL副总裁：未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样：回顾人工智能的发展，深度学习确实奏效了！现在强化学习正如火如荼，OpenAI o系列，DeepSeek R0都显示出了强化学习的巨大威力，人类生成的数据推动了人工智能的惊人进步，但接下来会发生什么？谷歌强化学习副总裁 David Silver与图灵奖获得者，强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》犹如《TheBitterLesson（苦涩的教训）》的续章给我们当头一棒：人类数据正在见顶，经验是下一个超级数据源，真正能推动AI跃升的数据，必须随模型变强而自动增长。

4/18/2025 10:01:41 AM AI寒武纪

异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时，Ilya Sutskever曾用一个生动的比喻来解释。想象你在读一本悬疑小说，如果仅凭前面的线索就能在最后一页推断出罪犯是谁，那么你对这个故事的理解无疑是深刻的。同样，AI通过学习海量文本，掌握了从字面到语义的「线索」，展现出惊人的智能。

4/18/2025 9:07:00 AM 新智元

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉