模型
微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B
动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。 2024 年底,微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型(SLM)。 仅用了 40% 合成数据,140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。
2/27/2025 1:45:00 PM
机器之心
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。 也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式,比如我们之前报道过的 LLaDA。 不过,之前这些成果都还只是研究探索,并未真正实现大规模应用。
2/27/2025 1:45:00 PM
机器之心
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
2/27/2025 1:10:00 PM
量子位
摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作
无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位
超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1
阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列! Wan2.1 亮点速览✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭🧲 物理模拟: 物体交互更真实,视频更具沉浸感🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性✏️ 可控编辑: 编辑能力更强大,创作空间更广阔✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富🎶 音效音乐: 视听体验一体化,视频极具感染力Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
2/27/2025 12:44:41 PM
AI寒武纪
CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒
刚刚,CVPR 2025录用结果出炉! 今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。 近两年来,CVPR录用结果逐年递减。
2/27/2025 12:30:00 PM
新智元
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
绕过 RAG 实时检索瓶颈,缓存增强生成(CAG)如何助力性能突破?
检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。 不过,这种方法也带来了一些挑战,比如检索过程的延迟、文档挑选时可能出现的误差,以及系统复杂度的增加。 随着能够处理更长上下文的大语言模型(LLMs)的兴起,缓存增强生成(CAG)技术应运而生,它避免了实时的信息检索。
2/27/2025 10:55:44 AM
追求卓越的
全球AI顶会AAAI 2025 在美开幕,产学研联手的“中国队”表现亮眼
当地时间2月25日,AAAI 2025 在美国宾夕法尼亚州费城举办,会议为期8天,于3月4日结束。 AAAI 由国际人工智能促进协会主办,是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。 AAAI 2025 共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
2/27/2025 10:28:00 AM
新闻助手
识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力
多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位
阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行
近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。 与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。 官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。
2/27/2025 10:08:00 AM
AI在线
卓世科技:text2SQL技术浅谈
text2sql 技术是一种将自然语言(NL)转化为可被数据库执行的结构化查询语言 SQL 的技术。 自然语言可以是我们熟悉的一段文本,也可以是一段语音,又或者是其它可转化为文本的输入形式。 通过该技术,能够让不懂数据库操作的非技术人员提取、分析数据,无需学习编写 SQL 语句,无需了解不同 SQL 数据库的使用软件,通过输入文本描述的问题需求,即可得到对应需求下的数据结果。
2/27/2025 10:05:00 AM
特邀精选
姚班天才创办的大模型公司,卖了
最新消息,斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购! 收购方是MongoDB,一家开源数据库上市龙头。 而距离他2023年11月官宣创业Voyage AI不到一年半的时间。
2/27/2025 10:00:00 AM
量子位
ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位
OpenAI Deep Research已向所有付费用户开放,系统卡发布
相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线
Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃
Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!
2/27/2025 9:31:05 AM
新智元
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用