模型
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
绕过 RAG 实时检索瓶颈,缓存增强生成(CAG)如何助力性能突破?
检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。 不过,这种方法也带来了一些挑战,比如检索过程的延迟、文档挑选时可能出现的误差,以及系统复杂度的增加。 随着能够处理更长上下文的大语言模型(LLMs)的兴起,缓存增强生成(CAG)技术应运而生,它避免了实时的信息检索。
2/27/2025 10:55:44 AM
追求卓越的
全球AI顶会AAAI 2025 在美开幕,产学研联手的“中国队”表现亮眼
当地时间2月25日,AAAI 2025 在美国宾夕法尼亚州费城举办,会议为期8天,于3月4日结束。 AAAI 由国际人工智能促进协会主办,是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。 AAAI 2025 共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
2/27/2025 10:28:00 AM
新闻助手
识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力
多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位
阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行
近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。 与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。 官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。
2/27/2025 10:08:00 AM
AI在线
卓世科技:text2SQL技术浅谈
text2sql 技术是一种将自然语言(NL)转化为可被数据库执行的结构化查询语言 SQL 的技术。 自然语言可以是我们熟悉的一段文本,也可以是一段语音,又或者是其它可转化为文本的输入形式。 通过该技术,能够让不懂数据库操作的非技术人员提取、分析数据,无需学习编写 SQL 语句,无需了解不同 SQL 数据库的使用软件,通过输入文本描述的问题需求,即可得到对应需求下的数据结果。
2/27/2025 10:05:00 AM
特邀精选
姚班天才创办的大模型公司,卖了
最新消息,斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购! 收购方是MongoDB,一家开源数据库上市龙头。 而距离他2023年11月官宣创业Voyage AI不到一年半的时间。
2/27/2025 10:00:00 AM
量子位
ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位
OpenAI Deep Research已向所有付费用户开放,系统卡发布
相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线
Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃
Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!
2/27/2025 9:31:05 AM
新智元
AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送
起猛了,一夜间AI助手全免费了? 最近Grok和Claude频繁屠榜,网友不禁感慨:「江山代有才人出,各领风骚十几天」。 有人评论,十几天都没有,也就几天。
2/27/2025 9:13:06 AM
新智元
英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100
当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花? 答案是:推理性能暴涨25倍,成本狂降20倍! 随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。
2/27/2025 9:09:45 AM
新智元
通义新一代轻量化大语言模型DistilQwen2.5 发布 提升性能与效率
在大语言模型逐渐普及的今天,如何在资源受限的环境中实现高效部署已成为重要课题。 为了解决这一挑战,基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。 该模型采用了创新的双层蒸馏框架,通过优化数据和参数融合技术,不仅保留了模型的性能,同时显著降低了计算资源的消耗。
2/26/2025 4:58:00 PM
AI在线
大模型「记忆断片」成历史!AI初创全新Zep系统,知识图谱破解上下文诅咒
无论是ChatGPT还是Deepseek,随着大模型性能的提升,其能够处理的上下文也越来越长。 但是,一旦超出上下文窗口的限制,大模型就需要重新开一个对话,如同「失忆」一般忘记之前交流的内容。 然而,站在用户的角度,智能体应该能够记住之前的所有对话,因此如何有效地管理和利用对话历史,就成为了提升AI智能体用户体验的关键。
2/26/2025 2:15:00 PM
新智元
ScaleOT框架亮相AAAI 2025:提升隐私保护50%,降算力成本90%
近日,在全球人工智能顶级学术会议AAAI2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出创新的跨域微调(offsite-tuning)框架——ScaleOT。 该框架能在模型性能无损前提下,将隐私保护效果提升50%,与知识蒸馏技术相比,算力消耗显著降低90%,为百亿级参数模型的跨域微调提供高效轻量化方案,论文因创新性入选AAAI的oral论文(本届大会近13000篇投稿,口头报告比例仅4.6%)。 跨域微调是目前业内保护模型产权与数据隐私的主流方案,通过有损压缩将大模型转换为仿真器,数据持有方基于其训练适配器并返回给大模型完成调优,数据和模型均未出域,可保护双方隐私,但存在局限性:一是“均匀抽积木”式处理易致模型关键层缺失,使性能显著下降;二是用蒸馏技术弥补性能损失,计算成本高;且现有方法隐私保护缺乏灵活性。
2/26/2025 2:13:00 PM
AI在线
谷歌发布最强「科研辅助神器」!能帮你提新idea,三大真实场景实证
在科学探索的过程中,研究人员需要对以往发表的文献进行观察总结,提出一些新颖、可行的研究方向,最后通过全面的实验进行idea验证。 科研人员需要对探索的宽度和深度进行平衡,由于精力有限,不能探索过多的研究方向,同时还要保证对目标主题的研究深度。 最近,谷歌、斯坦福大学等机构的研究人员开发了一个多智能体、基于Gemini 2.0的AI协同科研(AI co-scientist)系统,具备跨复杂主题的综合能力和进行长期规划、推理的能力,除了传统的文献综述、总结功能之外,还可以辅助科研人员提出新的、原创知识,或是基于先前的成果制定研究假设(hypotheses)和计划(proposal)。
2/26/2025 1:50:00 PM
新智元
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉