模型
摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作
无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位
超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1
阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列! Wan2.1 亮点速览✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭🧲 物理模拟: 物体交互更真实,视频更具沉浸感🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性✏️ 可控编辑: 编辑能力更强大,创作空间更广阔✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富🎶 音效音乐: 视听体验一体化,视频极具感染力Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
2/27/2025 12:44:41 PM
AI寒武纪
CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒
刚刚,CVPR 2025录用结果出炉! 今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。 近两年来,CVPR录用结果逐年递减。
2/27/2025 12:30:00 PM
新智元
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
绕过 RAG 实时检索瓶颈,缓存增强生成(CAG)如何助力性能突破?
检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。 不过,这种方法也带来了一些挑战,比如检索过程的延迟、文档挑选时可能出现的误差,以及系统复杂度的增加。 随着能够处理更长上下文的大语言模型(LLMs)的兴起,缓存增强生成(CAG)技术应运而生,它避免了实时的信息检索。
2/27/2025 10:55:44 AM
追求卓越的
全球AI顶会AAAI 2025 在美开幕,产学研联手的“中国队”表现亮眼
当地时间2月25日,AAAI 2025 在美国宾夕法尼亚州费城举办,会议为期8天,于3月4日结束。 AAAI 由国际人工智能促进协会主办,是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。 AAAI 2025 共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
2/27/2025 10:28:00 AM
新闻助手
识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力
多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位
阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行
近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。 与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。 官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。
2/27/2025 10:08:00 AM
AI在线
卓世科技:text2SQL技术浅谈
text2sql 技术是一种将自然语言(NL)转化为可被数据库执行的结构化查询语言 SQL 的技术。 自然语言可以是我们熟悉的一段文本,也可以是一段语音,又或者是其它可转化为文本的输入形式。 通过该技术,能够让不懂数据库操作的非技术人员提取、分析数据,无需学习编写 SQL 语句,无需了解不同 SQL 数据库的使用软件,通过输入文本描述的问题需求,即可得到对应需求下的数据结果。
2/27/2025 10:05:00 AM
特邀精选
姚班天才创办的大模型公司,卖了
最新消息,斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购! 收购方是MongoDB,一家开源数据库上市龙头。 而距离他2023年11月官宣创业Voyage AI不到一年半的时间。
2/27/2025 10:00:00 AM
量子位
ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位
OpenAI Deep Research已向所有付费用户开放,系统卡发布
相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线
Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃
Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!
2/27/2025 9:31:05 AM
新智元
AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送
起猛了,一夜间AI助手全免费了? 最近Grok和Claude频繁屠榜,网友不禁感慨:「江山代有才人出,各领风骚十几天」。 有人评论,十几天都没有,也就几天。
2/27/2025 9:13:06 AM
新智元
英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100
当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花? 答案是:推理性能暴涨25倍,成本狂降20倍! 随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。
2/27/2025 9:09:45 AM
新智元
通义新一代轻量化大语言模型DistilQwen2.5 发布 提升性能与效率
在大语言模型逐渐普及的今天,如何在资源受限的环境中实现高效部署已成为重要课题。 为了解决这一挑战,基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。 该模型采用了创新的双层蒸馏框架,通过优化数据和参数融合技术,不仅保留了模型的性能,同时显著降低了计算资源的消耗。
2/26/2025 4:58:00 PM
AI在线
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind