资讯列表
CVPR 2025 | 字节提出个性化多人图像生成新方法ID-Patch,可生成多人合影、姿势可控
相信扩散模型(DMs)大家一定都不陌生了,目前已经成为文本生成图像的核心方法,凭借强大的图像生成能力,正重塑艺术创作、广告设计、社交媒体内容生产格局。 现在,用一段文字生成个性化头像都不算啥新鲜事儿了。 不过仍然会有这样一个问题,目前我们看到的基于人物的文生图大多还是生成一个人的,对于多人同时生成的目前还没有很好的样例。
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行“思考”(推理)和“查找”(检索)来解决复杂任务,展现了惊人能力。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。
港科大Apple新研究:Tokens使用量减少,模型推理还更强了
1 1等于几? 现在的大推理模型(LRMs)已经展现出了非凡的推理能力。 但是面对这样最简单的数学问题,现有的LRMs仍需要花费1400 的tokens来思考。
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了
又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini
深度求索(Deepseek)昨日通过官方交流群,邀请用户测试 DeepSeek-R1-0528 模型小版本,初步测试结果表明,R1-0528 在编程能力、审美设计和代码补全等方面表现出色,尤其在复杂指令处理和前端页面生成上展现了高精度和高效能。
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了
今早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。 仅用随机奖励,甚至是错误答案,也能让AI在数学推理中性能暴涨! 来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。 对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
19岁少年用计算机炼出「神药」,斩获全球大奖!大厂看了都沉默
「少年药神」来了! 来自斯洛伐克的19岁少年Adam Kovalčík,凭借计算机模拟设计的新分子,一举夺得全球顶级大奖! 这些分子有望像广谱抗病毒药物Galidesivir一样有效阻止病毒复制。
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。 中国科学院自动化研究所联合鹏城实验室提出了一种高效的推理策略,赋予推理大模型根据题目难度自主切换思考模式的能力:通过一个小小的省略号作为提示词 多阶段强化学习,引导大模型自主决定是否深度思考、思考多少。 研究背景:大模型“想太多”,是优点还是负担?
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了
就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 图片项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了
就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
DeepSeek 全新开源R1-0528 模型登场,性能媲美 OpenAI o3 模型
今天凌晨,知名的开源大模型平台 DeepSeek 发布了其最新版本 R1(0528),引起了广泛关注。 此次发布没有附带详细说明,DeepSeek 选择了 “悄然” 开放模型,预计后续会发布模型卡,进一步介绍其功能。 据悉,R1-0528版本的性能在著名代码测试平台 Live CodeBench 上的测试结果显示,其表现与 OpenAI 最新的 o3模型相当。
OpenAI CFO 透露:重组新架构为未来可能的IPO打开大门
OpenAI 的首席财务官莎拉・弗里尔(Sarah Frier)近日在都柏林科技峰会上透露,公司正在进行的组织重组为未来可能的首次公开募股(IPO)铺平了道路。 虽然 OpenAI 正在积极准备,但能否顺利上市还需视公司自身的准备程度以及资本市场的整体氛围而定。 图源备注:图片由AI生成,图片授权服务商Midjourney弗里尔提到,微软对 OpenAI 的投资已经超过了130亿美元,约合935亿元人民币。
OpenAI 首席财务官透露 IPO 新动向,市场情绪将决定未来
在最新的财务战略会议上,OpenAI 首席财务官 Sarah Friar 表示,公司的重组计划为未来可能的首次公开募股(IPO)铺平了道路。 她指出,尽管这一决定的实施尚未确定,但将取决于市场的整体情绪以及 OpenAI 自身的准备情况。 根据 Friar 的介绍,OpenAI 已经成功获得了来自微软超过130亿美元的投资,这为公司未来的发展提供了坚实的资金支持。
马斯克的xAI与 Telegram 达成3亿美元合作协议,推出Grok AI聊天机器人
在近期的科技新闻中,Telegram 的 CEO 帕维尔・杜罗夫(Pavel Durov)宣布与埃隆・马斯克创办的 xAI 公司达成一项重磅合作协议。 根据协议,xAI 将向总部位于迪拜的通讯平台支付3亿美元,以部署其最新的人工智能聊天机器人 Grok。 这一合作关系为期一年,杜罗夫表示,此举将极大增强 Telegram 的财务状况。
Opera推出AI代理浏览器Neon:承诺替用户购物编码,但需付费订阅
Opera公司周二正式发布了全新的Opera Neon浏览器,这款产品专门针对AI工作流程设计,承诺能够代替用户执行购物、填写表格和编程等复杂任务。 核心功能与订阅模式Opera Neon目前仍处于候补状态,公司确认正式发布后将采用订阅收费模式,但具体价格尚未公布。 该浏览器的最大亮点在于侧边栏新增的三个功能按钮:聊天、执行和制作。
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开发生态的参考系。
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
大模型做数独,总体正确率只有15%? ? ?