模型
曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡
Meta这次真的坐不住了,计划在AI上继续加码! 匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。 就在这一消息沸沸扬扬时,小扎放出消息,2025年继续扩大AI投资。
1/26/2025 9:00:00 AM
量子位
DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元
六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究
长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。 大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。 没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?
1/24/2025 3:30:00 PM
新智元
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。 顾名思义,Operator就是能帮你端到端处理任务的AI智能体。 比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。
1/24/2025 3:09:43 PM
新智元
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。
1/24/2025 3:05:09 PM
量子位
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。 作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。
1/24/2025 2:14:35 PM
机器之心
中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了
今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元
阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!
在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
2025智能体元年!斯坦福科学家8000字讲清所有要点
许多人认为「智能体」是AI发展的终极目标。 智能体在处理复杂任务时,展现出了巨大潜力。 从协助搭建网站、管理客户账户,到开展市场调研、自动录入数据,智能体的应用场景日益广泛。
1/24/2025 9:30:00 AM
新智元
两分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具
2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。 它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。 繁琐冗长的论文调研,现在,只需要两分钟。
1/24/2025 8:45:00 AM
机器之心
小模型也能玩转RAG!性能仅降1%,存储省75%,边缘设备轻松跑
检索增强生成(RAG)虽好,但一直面临着资源消耗大、部署复杂等技术壁垒。 近日,香港大学黄超教授团队提出MiniRAG,成功将RAG技术的应用门槛降至1.5B参数规模,实现了算力需求的大幅降低。 这一突破性成果不仅为边缘计算设备注入新活力,更开启了基于小模型轻量级RAG的探索。
1/23/2025 5:00:00 PM
量子位
推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了
瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位
OpenAI微软关系现裂痕,奥特曼紧急公关,导火索竟是DeepMind联创
一个5000亿美元的大动作,让微软不再是OpenAI独家云计算供应商了。 在OpenAI与甲骨文牵手组建数据中心那一刻起,网友们纷纷看向这个计划之外的微软:他们两个之间的关系约莫是出现裂痕了。 结果奥特曼紧急公关,不是你听我解释,这是形势所迫,为算力折腰啊啊。
1/23/2025 4:22:56 PM
量子位
字节清华开源力作!UI-TARS原生AI智能体,人人都能拥有“智能助手”
年底国内各个AI玩家杀疯了,前两天完全开源的Deepseek R1 震撼整个AI业界,今天字节又联合清华整活,一个强大的原生的开源 AI Agent UI-TARS震撼上线看了UI-TARS的论文,我给大家划划重点【纯视觉感知】:告别文本依赖,像人眼一样“看”懂GUI! 传统的GUI自动化方案,很多都依赖于解析网页代码(HTML)或者软件的API接口。 但这种方式有两个致命缺陷:一是平台限制,不同平台、不同软件的底层代码和API都不一样,导致自动化方案难以通用;二是容易失效,一旦网页或软件界面改版,代码或API接口变动,自动化脚本就可能直接崩溃。
1/23/2025 1:05:42 PM
AI寒武纪
英矽智能在Nature 子刊发表最新研究,利用量子-经典混合模型设计新型KRAS抑制剂
近期,英矽智能与加拿大多伦多大学共同主导的一项研究首次展示量子计算和人工智能在变革药物发现流程方面的潜力。 在这项研究中,科学家将量子计算模型与经典计算模型和生成式人工智能相结合,通过对庞大数据集的训练、生成和筛选,探索更广泛的化学可能性,发现靶向“不可成药”癌症驱动蛋白KRAS 的新颖分子。 这项研究也得到了圣裘德儿童研究医院等多方研究机构的支持,相关研究成果于1月22日发表于Nature Biotechnology。
1/23/2025 11:26:00 AM
新闻助手
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
Claude
搜索
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成