AI
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。 它以标准多头注意力(MHA)为基准,对其中的value缓存处理过程进行了调整,实现了更少的内存占用。
3/18/2025 9:23:22 AM
量子位
陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目
大模型持续震惊科学家! 以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。
3/18/2025 9:19:26 AM
量子位
一文读懂:模型上下文协议(MCP)
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的模型上下文协议(MCP)。 随着人工智能迈向更复杂的应用场景,单一模型的局限性逐渐显现,而多模型协同与上下文感知的需求日益迫切。 从对话系统需要理解用户的历史语境,到跨模态任务要求无缝整合文本、图像等多源数据,AI 的发展正呼唤一种全新的协作范式。
3/18/2025 9:10:00 AM
架构驿站
消息称阿里巴巴全面推进“AI化”,2025年绩效聚焦AI增长
据英国《金融时报》报道,阿里巴巴CEO吴泳铭推动公司业务全面“AI化”。 知情人士透露,阿里所有部门2025年绩效将以AI驱动增长为考核核心。 淘宝、天猫等电商业务被要求加速应用AI技术,与“通义千问”团队合作开发提升效率和用户体验的功能。
3/18/2025 9:00:00 AM
AI在线
技术领导者如何利用AI克服十大采购挑战
然而,软件采购决策通常需要三到六个月——甚至更长时间——才能最终确定。 在科技领域,这简直是漫长无比;等到交易签署时,市场条件可能已经改变,新的竞争对手已经出现,或者解决方案本身已经升级。 难怪北美90%的IT高管认为软件采购和供应商选择是一个痛点。
3/18/2025 9:00:00 AM
D1net编译
刚刚,o1/o3后训练掌门人出走创业,OpenAI鼎力支持押注AI材料!曾师从Bengio
OpenAI又痛失一员大将。 刚刚,后训练副总William Fedus官宣离职OpenAI,将创办一家AI发现材料创业公司。 对此OpenAI表示:「OpenAI将会对Fedus新公司进行投资并建立合作伙伴关系」。
3/18/2025 8:58:13 AM
新智元
CAIO正在脱颖而出 不再在CIO帐下听令
2016年,AI领域最著名的研究者之一安德鲁·吴(Andrew Ng)撰写了关于在公司中设立首席AI官角色的好处,以及这一角色应具备的特点和职责的文章。 当时,这一想法似乎有些牵强,认为除了少数特定行业之外,其他企业也需要设立CAIO。 但近年来,随着GenAI的兴起,智能工具的使用量增加,CAIO角色已逐渐成为众多行业关键的技术高管职位。
3/18/2025 8:30:00 AM
Ramos
DeepSeek 开源 3FS,一个文件系统而已,有啥值得吹的?
有人说,deepseek一个搞AI的公司,不干正事,开源一个文件系统,有啥值得吹的。 今天来简单聊聊3FS,包懂。 3FS是什么?3FS,Fire-Flyer File System,是一个用C 写的高性能分布式文件系统。
3/18/2025 7:40:00 AM
架构师之路
AI时代的产品如何做?IBM都在用的3大设计系统终于公开了!
编者按:UI/UX 设计师的本职工作之一,是为数字产品和服务匹配上合理的界面和交互。 那么随着 AI 在各个领域产品的深入,让我不由得想问一个问题,那么 AI 时代的 UI 设计要怎么做? 有没有可靠的设计系统?
3/18/2025 1:23:49 AM
Allie Paschal
阿里 QwQ-32B 大模型集成至国家超算互联网平台 Chatbot 可视化对话 / API 在线调用服务
国家超算互联网平台今日发文宣布 MaaS 服务再上新:QwQ-32B 推理大模型正式集成至 Chatbot 可视化对话服务与 API 在线调用服务。
3/17/2025 7:32:12 PM
归泷(实习)
2025年99%代码AI生成!OpenAI高管宣告没有退路,人类将被全面超越
「2025年底,99%的编码将实现AI自动化」! 图片这是OpenAI首席产品官Kevin Weil在最新一期采访中,向全世界发出的郑重宣告。 他大胆预测,今年是人工智能在编程方面,永远超越人类的一年,我们已经没有退路了。
3/17/2025 1:51:06 PM
新智元
https://mp.weixin.qq.com/s/-lOj5naC2Yb3BD32YuUyOw
机构: 北京大学人工智能研究院 北京通用人工智能研究院作者: 毛彦升 徐宇飞 李佳琪 孟繁续 杨昊桐 郑子隆 王希元 张牧涵长文本任务是当下大模型研究的重点之一。 在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。 扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的长程依赖关系,增强对长文的阅读理解和推理。
3/17/2025 12:55:18 PM
机器之心
真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」
最近一段时间,智能体(Agent)再次成为 AI 领域热议的焦点。 2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档搜索。 得益于在浏览任务上的强化学习训练,DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。
3/17/2025 12:52:00 PM
机器之心
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
7B小模型 3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主? 受到DeepSeek-R1中强化学习算法的启发,小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。 结果模型在MMAU上的准确率从49.2%提升到了64.5%(涨幅31%),比以前霸榜的GPT-4o还高出近10个百分点。
3/17/2025 12:13:26 PM
量子位
AI要取代程序员?吴恩达:别信!现在学编程比以往任何时候都香
AI的爆发式发展,让很多学习编程的人或者在职的软件工程师都很迷茫焦虑,更有甚者,像Anthropic CEO Dario Amodei 前两天说:“未来 3 到 6 个月内,90% 的代码将由人工智能编写;12 个月内,几乎所有代码都可能由人工智能生成”,那么究竟将来还需不要学习编程,吴恩达老师给出了他的看法:学习编程依然非常重要以下是原文中文翻译,分享给大家吴恩达@AndrewYNg如今有些人正在劝退他人学习编程,理由是人工智能将使编程自动化。 这种建议将来会被视为史上最糟糕的职业建议之一。 我不同意那位图灵奖和诺贝尔奖得主所写的“编程这个职业很可能走向消亡 [...] 而不是变得无所不能。
3/17/2025 9:43:42 AM
AI寒武纪
无需训练,100%完美检索!LLM练出「火眼金睛」,InfiniRetri超长文本一针见血
全新检索模式:在无限长token下,大语言模型自身或能检索信息! 受大语言模型(LLM)上下文窗口大小的限制,处理输入token数超过上限的各种任务颇具挑战性,无论是简单的直接检索任务,还是复杂的多跳推理任务。 尽管新提出的各种方法用来增强大语言模型的长上下文处理能力,但这些方法痛点突出:要么会产生高昂的训练后成本,要么需要额外的工具模块(如检索增强生成RAG),要么在实际任务中显示出改进,并不明显。
3/17/2025 9:40:00 AM
新智元
AI 快速发展会取代程序员吗?
最近收到很多同学的私信,讨论一个大家都很关心的问题:AI 的快速发展,会直接干掉程序员吗? 首先,先给大家说结论,那就是 不会。 不但不会,反而我认为:AI 的快速发展不仅不会取代程序员,反而会给程序员带来巨大的机会,这是程序员实现 阶级跃迁 的最好时机!
3/17/2025 9:37:46 AM
佚名
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%
大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何? 这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。 来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。
3/17/2025 9:35:00 AM
新智元
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
AI视频
人形机器人
具身智能
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
生成式AI
架构
DeepMind
亚马逊
特斯拉
编程
AI模型
视觉
Transformer
预测
MCP