AI在线 AI在线

模型

为什么大语言模型难以处理长上下文?从 Transformer 到 Mamba

OpenAI 在两年前推出 ChatGPT 时,其能够处理的上下文信息仅有 8,192 个 tokens1。 换言之,如果输入的文本超过大约 15 页,它就会“遗忘”最初的上下文内容。 这一限制使得 ChatGPT 在处理任务时的规模和复杂度都受到了影响。
2/6/2025 10:21:51 AM
追求卓越的

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。 主要研究方向包括自然语言处理、模型可解释性。 该工作为倪睿康在彩云科技实习期间完成。
2/6/2025 10:16:00 AM
机器之心

数学真理的极限在哪里?希尔伯特第十问题扩展版得到证明

数学世界充满了无法触及的角落,那里存在着许许多多无法解决的问题。 现在,又一个角落被照亮了。 1900 年,著名数学家大卫・希尔伯特(David Hilbert)公布了一份清单,其中包含 23 个关键问题,并希望以此指导下个世纪的数学研究。
2/6/2025 9:50:00 AM
机器之心

英伟达憾失DeepSeek关键人才?美国放走AI「钱学森」,哈佛教授痛心疾首

DeepSeek给美国造成的威胁,还在加剧。 就在昨天,DeepSeek的日活数已经达到ChatGPT的23%,每日应用下载量接近500万! a16z联创Marc Andreessen发文谁能想到,做出DeepSeek关键贡献的人才,本来是可能留在美国的。
2/6/2025 9:30:00 AM
新智元

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
2/5/2025 2:32:00 PM
机器之心

快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio

Sam Altman炸场东京,亲曝GPT-5研发路线图,多模态能力颠覆传统

昨天,OpenAI联合创始人兼首席执行官Sam Altman出席了日本东京大学活动,介绍了OpenAI的技术研发、产品规划以及GPT模型未来发展等重要信息。 在问答环节,有学生提到了大家比较关心的GPT-5问题,Altman表示,GPT-5将是一个超级混合模型,计划会把GPT和o系列模型整合在一起,并且支持视频、音频、图像的多模态交互。 Altman做了一个比喻,GPT-3到GPT-4是一次史诗级性能飞跃,而GPT-4再到GPT-5将会再一次重现这种惊喜。
2/5/2025 10:26:23 AM
AIGC开放社区

美国新法案:禁止进口中国DeepSeek,违规罚1亿美元、监禁

在国内大模型DeepSeek席卷全球致使美国科技股暴跌后,美国参议员Josh Hawley提出《美国AI能力与中国脱钩》法案,以保护美国的AI开发不受中国影响。 Hawley在序言中写道:“流入中国AI的每一美元和每一字节数据,最终都会被用来对付美国。 美国不能在牺牲自身实力的情况下,增强我们最大的对手。
2/5/2025 10:24:04 AM
AIGC开放社区

超越DragDiffusion!哈工程联合南大提出FastDrag:可以几秒内完成基于拖动的图像编辑

今天给大家介绍哈工程联合南大等提出的图像编辑方法FastDrag,该方法不需要LoRA训练,从而显著减少了图像编辑的时间消耗(FastDrag仅需3.12秒完成图像编辑),比DiffEditor快近700%(DiffEditor需要21.68秒完成图像编辑),比经典的基于n步迭代的图像编辑方法(如:DragDiffusion)快2800%(DragDiffusion需要1分21.54秒完成图像编辑)。 此外,即使没有使用LCM加速的情况下,所提出的FastDrag方法仍然比目前SOTA的方法快很多。 相关链接论文链接:: ,用户只需单击几下即可操作图像中的任何内容。
2/5/2025 10:15:00 AM
Xuanjia Zhao等

DeepSeek 全面指南:95% 的人都不知道的九个技巧

大家好,我是汤师爷~最近,DeepSeek这款AI工具爆火国内外。 虽然许多人都开始尝试使用它,但有人吐槽说,没想象中那么牛。 其实问题不在工具,很多人的使用姿势就搞错了,用大炮打蚊子,白白浪费DeepSeek的强大功能。
2/4/2025 5:33:00 PM
架构师汤师爷

蛋白质设计新纪元:语言模型驱动的 5 亿年进化模拟

在生命科学的浩瀚星空中,蛋白质一直是最为璀璨的研究焦点之一。 近期,一项由 Thomas Hayes 等众多学者共同完成的研究成果 —— 利用语言模型模拟 5 亿年蛋白质进化,在《Science》杂志重磅发表,如同一颗超新星爆发,瞬间照亮了整个领域,为蛋白质研究开启了全新的篇章。 一、ESM3 模型架构揭秘ESM3 模型作为此项研究的核心成果,无疑是一座闪耀着创新光芒的科学丰碑。
2/4/2025 11:11:07 AM
tune

GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗? 这一有趣的问题,牵出了LLM中一个全新且极具价值的概念:行为自我意识。 论文链接:,这些模型能否确切地意识到自身所学行为,并对其加以描述,这是一个极具探讨价值的问题。
2/3/2025 2:25:40 PM
新智元

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

在科技界,一天的时间足以改写历史。 DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。 o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。
2/3/2025 2:06:32 PM
新智元

NeurIPS | 对比采样链:让扩散模型更快、更准、更清晰的秘密武器

论文 Contrastive Sampling Chains in Diffusion Models 的精炼解读。 一眼概览该论文提出了一种 对比采样链(Contrastive Sampling Chains, CSC) 方法,通过对比损失和得分匹配相结合,优化扩散模型(DMs)的采样过程,从而 减少离散化误差,提高生成图像的质量,同时提升采样速度。 核心问题扩散模型在使用数值求解方法进行采样时 不可避免地引入离散化误差,导致生成样本与真实数据分布之间存在偏差。
2/3/2025 10:04:47 AM
萍哥学AI

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/2/2025 11:41:00 PM
机器之心

成功率达100%,上交团队提出AI辅助的酶热稳定性工程策略,设计热稳定性的组合突变体

编辑 | ScienceAI优化酶的热稳定性对于蛋白质科学和工业应用至关重要。 目前,通过(半)理性设计和随机诱变方法可以较为准确地设计多个增强酶热稳定性的单点突变。 但当组合多个突变时,常常会出现复杂的上位效应,导致组合突变体完全失活。
2/2/2025 3:28:00 PM
ScienceAI

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。
1/29/2025 6:40:00 PM
机器之心

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
1/28/2025 5:34:00 PM
新闻助手