大模型
阿里QwQ-32B大模型成功上线国家超算互联网平台,助力Chatbot服务
近日,国家超算互联网平台宣布了一项重要更新:阿里 QwQ-32B 推理大模型正式集成至其 Chatbot 可视化对话服务与 API 在线调用服务。 这一进展意味着用户可以通过平台体验到更加智能和多样化的对话服务,涵盖学术研究、代码生成和日常咨询等多个场景。 据了解,QwQ-32B 模型是由阿里 Qwen 团队开发的,基于 Qwen2.5-32B 及强化学习技术构建。
3/18/2025 10:38:00 AM
AI在线
陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目
大模型持续震惊科学家! 以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。
3/18/2025 9:19:26 AM
量子位
突发!百川智能两位联合创始人出走,一位正在走离职手续
出品 | 51CTO技术栈(微信号:blog51cto)刚刚收到消息,大模型六小虎之一的百川智能高层出现了很大的变动——两位联合创始人被媒体曝出了离职创业的消息。 其中,联合创始人焦可已经离职,另一位联合创始人陈炜鹏也将离职,目前还在走内部流程。 另据知情人士称,焦可和陈炜鹏两人都已经分别开始AI领域的创业。
3/17/2025 3:59:19 PM
北大团队提出全新框架LIFT 将长上下文知识注入模型参数
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning (LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。 这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。 目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大 模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索,容易引入噪声导致幻觉 长上下文适配的推理复杂度高,上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段 避免因过长上下文造成的推理复杂度提升和长程依赖丢失 训练复杂度对长文本长度呈线性增长 平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构 动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解 允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务 补偿模型在切段训练中可能损失的能力 帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
3/17/2025 3:59:00 PM
AI在线
钉钉推出AI客服助理 可自动接入企业官网、公众号等平台
2025年3月17日,钉钉宣布推出一项重磅AI能力——AI客服助理,该功能可自动接入企业官网、公众号等平台,直接服务消费者和企业客户。 这一创新举措一经推出便受到企业客户的广泛欢迎,目前已有包括云深处科技、Rokid(乐奇)、瑞德林、艾为电子、精准学等在内的700多家企业接入使用。 钉钉AI客服助理通过多轮对话能够精准理解用户的真实需求,并有效回复复杂问题,如“产品参数对比”等深度咨询内容。
3/17/2025 1:54:00 PM
AI在线
一次排查 Cursor Bug 的经历
相信很多同学日常编码已经用上了Cursor。 最近,我在用Cursor过程中遇到了「注册的MCP服务不调用」的问题。 经过一顿排查,最终确定是Cursro自身bug导致。
3/17/2025 10:01:07 AM
卡颂
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果
全面评估大模型电商领域能力,首个聚焦电商基础概念的可扩展问答基准来了! ChineseEcomQA,来自淘天集团。 此前,大模型常因生成事实性错误信息而受限,而传统基准又难以兼顾电商任务的多样性与领域特殊性。
3/17/2025 8:48:00 AM
量子位
北京新增34款已完成登记的生成式AI服务,小米AI搜索、Monica在列
网信北京发布了最新北京市生成式人工智能服务已登记信息公告,公称,根据《生成式人工智能服务管理暂行办法》及有关规定,对于通过API接口或其他方式直接调用已备案大模型能力的生成式人工智能应用或功能,采用登记管理方式,允许上线提供服务。 截至3月14日,我市新增34款已完成登记的生成式人工智能服务,累计已完成46款生成式人工智能服务登记。 其中,小米AI搜索、小米AI写作、Monica等产品在列。
3/14/2025 2:20:00 PM
AI在线
炸裂官宣!大佬亲自站台,AWS 全力支持 DeepSeek!
月11日凌晨,AWS宣布在AWS Bedrock推出全托管的DeepSeek-R1模型,成为首个提供DeepSeek-R1全托管的海外云厂商。 与此同时,DeepSeek也成为是首个登陆Amazon Bedrock的国产大模型。 Amazon CEO Andy .
3/14/2025 10:43:27 AM
架构师之路
无缝切换,实现多厂家大模型高效对接
1、问题介绍在 AI 技术迅猛发展的今天,越来越多的研发同学面临着众多大模型选型的挑战。 随着业务需求的多样化,大家希望能够逐一对比和探索不同的大模型,以便选择最适合的解决方案。 然而,不同模型的对接方式各异,请求格式、参数解析也各不相同,这给开发者带来了不小的困扰。
3/14/2025 9:02:03 AM
架构精进之路
阶跃星辰与智元机器人达成合作 探索大模型+具身机器人应用
上海阶跃星辰智能科技有限公司与智元机器人正式签署深度战略合作协议,双方将在基座大模型和机器人研发领域展开深度合作,共同探索“大模型 具身机器人”的技术突破与应用创新。 此次合作涉及世界模型技术研发、具身智能领域数据合作以及新零售等应用场景的落地,旨在推动具身智能技术在家庭服务、新零售、智能制造等领域的规模化应用。 阶跃星辰与智元机器人的合作内容涵盖了模型研发、行业解决方案以及数据体系建设等多个方面。
3/13/2025 5:31:00 PM
AI在线
RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本
上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
3/13/2025 12:24:34 PM
Glodma
迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang
14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位
大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒
还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发
作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程
科大讯飞依靠国产算力卡成功进入大模型研发梯队
近日,科大讯飞在互动平台上回答投资者提问,透露了其在国产算力领域的最新进展,引发广泛关注。 科大讯飞表示,凭借仅仅1万张910B 国产算力卡,他们已经跻身于大模型研发的第一梯队。 这一成绩令人瞩目,因为同类企业在此领域所需的算力往往远超此数。
3/11/2025 2:15:00 PM
AI在线
从鹦鹉学舌到灵魂对话,AI的人话革命
2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉