AI在线 AI在线

资讯列表

一图胜千言被实现了!DeepSeek-OCR用图片压缩文本,10倍压缩率

DeepSeek开源了DeepSeek-OCR,用1张图片的信息,还原10页书的文字,10倍的压缩率,可以做到几乎不丢失信息。 视觉编码器走了不少弯路大型语言模型记性不好,或者说,能记住的东西太有限。 你给它一篇长长的文章,它的计算量呈二次方往上飙。
10/24/2025 12:19:18 PM

斯坦福与Adobe新研究,模仿蒸馏技术轻松让200亿参数图像生成高质量大模型

高质量图像生成又加速了! 斯坦福大学和 Adobe 研究院联手,用 pi-Flow(基于策略的流模型)技术,让 200 亿参数的文本到图像大模型,在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。 让图像生成模型少走几步所有玩过 AI 绘画的人都有一个共同的体验,未蒸馏的原版大模型,点击生成,看着进度条一点点爬升,从一个模糊的噪声,慢慢变得清晰。
10/24/2025 12:17:22 PM

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

允中 发自 凹非寺. 量子位 | 公众号 QbitAI斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o——. AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。
10/24/2025 12:16:56 PM
西风

干家务一小时挣1000元,具身智能时代人类新岗位

西风 发自 凹非寺. 量子位 | 公众号 QbitAI注意看,眼前这个男人暂且叫他小帅。 你可能想不到,他只是在厨房里优雅地煎牛排做做家务,每小时最高能赚进1000多块(150美元)。
10/24/2025 12:09:09 PM
西风

AI时代,开发者不能再当 i 人了,「云计算代言人」敬告

开发者不能再内向了:要会和客户同事说,会和 AI 说。 「我想说的很明确:现在我们有了更多学习新技术的机会,但最有意思的是,很多技巧并非技术。 我坚信,未来最成功的开发者,必须拥有强大的沟通能力。
10/24/2025 12:06:00 PM
机器之心

八年后,Meta教会了Transformer「显式思考」

最近的 Meta 可谓大动作不断,一边疯狂裁人,一边又高强度产出论文。 10 月 20 日,他们又上线了一篇新论文《The Free Transformer》,作者只有一位,日内瓦大学教授、Meta 研究科学家 François Fleuret。 有意思的是,François 所在的 FAIR 是 Meta 近日裁员最严重的部门之一。
10/24/2025 12:00:00 PM
机器之心

腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题

以 DeepSeek-R1 等为代表的推理模型(Large Reasoning Models, LRMs),通过生成更长的思维链,在各类复杂任务中取得了更优的表现。 但长思维链是推理模型的 “双刃剑”,虽能提升性能,但 “过度思考” 带来的语义冗余会大幅推高推理成本。 为破解大模型长思维链的效率难题,并且为了更好的端到端加速落地,我们将思考早停与投机采样无缝融合,提出了 SpecExit 方法,利用轻量级草稿模型预测 “退出信号”,在避免额外探测开销的同时将思维链长度缩短 66%,vLLM 上推理端到端加速 2.5 倍。
10/24/2025 11:56:00 AM
机器之心

夸克AI眼镜开售,88VIP叠加9折消费券,超低价格仅需3329元

10月24日零点,阿里巴巴首款自研的夸克AI眼镜在其天猫官方店铺——夸克智能设备旗舰店上正式首发。 天猫平台的实时成交竞速榜单显示,新品上线销售后仅7个小时,便成为双11期间智能眼镜行业top2品牌。 不少消费者已经在社交媒体及粉丝群里陆续晒出购买订单。
10/24/2025 11:18:54 AM

MinerU2.5源码拆解:双后端架构设计与企业级部署实践

8月中旬的时候,我去MinerU的办公室交流过一次。 当时对方有位工作人员表示,接下来会很快基于视觉模型的路线实现全面 SOTA。 说实话,那个时候我还挺怀疑的。
10/24/2025 11:16:41 AM
韦东东

基于JoyAgent的二开工程实践(信贷尽调报告生成)

很久没更新,书稿终于写完了,后续恢复每周一到两更。 这篇来继续聊聊 Agent, 这个现在有些烂大街的概念。 我在历史文章中提到 Agent 的案例演示时,大多是围绕 Dify,介绍了些诸如设备预测性运维、多源异构数据分析等使用场景。
10/24/2025 11:12:14 AM
韦东东

人工智能的“苦涩教训”:辛顿最清醒的警告

在人工智能的历史上,杰弗里·辛顿(Geoffrey Hinton)不仅是深度学习的奠基人,更像是一个时代的镜子。 他提出的“苦涩的教训(The Bitter Lesson)”,直到今天,依然是AI研究者绕不开的一记耳光——它提醒我们,聪明的人类往往高估了自己设计“聪明系统”的能力,而低估了计算和数据的力量。 这条教训,之所以“苦涩”,是因为它击中了人类的骄傲。
10/24/2025 11:00:58 AM
AI大模型应用开发

多轮交互驱动的Text-to-SQL智能体

在大语言模型(LLM)风头正劲的当下,让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向,即所谓 Text-to-SQL 技术。 尽管近年来已有不少成果,但在真实场景下,Text-to-SQL 仍存在一些挑战,尤其是在 多轮交互、宽表(很多列)查询、可解释性 等方面:用户常常不是一次性把完整问题说出来,而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂,模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串,往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入,提出一种 交互式、多轮驱动 的 Text-to-SQL 框架,让模型在生成 SQL 的过程中向数据库“发问”、拉取信息,从而提高准确性与可解释性。 下面,我们从核心思路、方法设计、实验结果及未来展望四个层面解读。
10/24/2025 10:58:24 AM

Apache Doris 4.0 把 AI 塞进数据库了!?

“哥,Doris 4.0 把 AI 塞进数据库了! ”凌晨一点,DBA老周在群里甩出这句话,附带一张截图:一条 SQL 直接调通简历筛选,把 30 万份数据 3 秒跑完。  我盯着屏幕,咖啡差点洒键盘——这年头,连数据库都开始抢 HR 的饭碗?
10/24/2025 10:51:05 AM
大数据AI智能圈

OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁

【AIbase报道】尽管 OpenAI 正在全力推广其全新一代智能浏览器 ChatGPT Atlas,但公司内部安全主管 Dane Stuckey 近日却公开表达了对其潜在安全风险的担忧,引发业界关注。 Stuckey 指出,Atlas 面临的最大挑战之一是尚未彻底解决的 “即时注入”(Prompt Injection)攻击。 这类攻击通过在网页、邮件或其他内容中巧妙嵌入恶意指令,从而诱导 AI 代理执行非预期操作。
10/24/2025 10:47:12 AM
AI在线

EA与Stability AI合作:将AI融入游戏开发,加速内容创作

电子艺界(EA)宣布与Stable Diffusion AI图像模型的开发商Stability AI建立战略合作关系,旨在将人工智能(AI)深度融入其游戏开发流程。 两家公司将“共同开发变革性的 AI 模型、工具和工作流程”,以重新构想内容构建方式,从而加速内容迭代并拓展创意边界。 AI定位:提升效率而非取代创意EA强调,虽然AI将成为“值得信赖的盟友”,支持更快的迭代、加速工作流程,并允许开发者将更多时间专注于“打造世界一流的游戏和体验”,但人类仍将是“故事叙述的核心”。
10/24/2025 10:47:08 AM
AI在线

Mobileye连续三个季度营收同比增长,EyeQ芯片出货量持续增长

得益于各项业务的强劲需求,第三季度营收达04亿美元,同比增长4%。 2025财年第三季度摊薄每股收益(GAAP)为-0.12美元,调整后摊薄每股收益(非GAAP)为09美元。 供需关系稳定,公司相应上调2025财年全年营收预期至45亿 – 18.85亿美元,预计同比增长区间为12% – 14%。
10/24/2025 10:46:54 AM
鹭羽

从零实现一个17M参数的GPT预训练模型

大家好,我是写代码的中年人! 今天我们使用开源的的中文数据进行模型的预训练,下面跟着我的步骤,从零实现你的预训练模型。 本文所有代码和数据资源位置:、预训练模型的概念预训练模型(Pretrained Model)就是一个已经在海量数据上训练过的模型,它学会了语言的基本规律、结构和语义,然后可以拿来做各种下游任务,比如写作、翻译、问答、分类、生成代码等。
10/24/2025 10:41:33 AM
写代码的中年人

揭秘大模型的魔法:从零实现一个简化版的GPT 模型

大家好,我是写代码的中年人! 今天我们结合代码从零实现一个简化版 GPT 模型。 近年来,大语言模型席卷了人工智能领域,从 ChatGPT 到 LLaMA,它们以惊人的语言理解和生成能力改变了我们与机器交互的方式。
10/24/2025 10:34:55 AM
写代码的中年人