AI在线 AI在线

资讯列表

多模态开发踩坑实录

你是不是也遇到这种情况:代码写完了、跑起来也没报错,但模型就是“不看图”? 别急,这事儿很常见——多模态开发不难,难在模型是否真支持多模态。 本文用最简单的方式,带你把“文字 图片”的多模态对话跑起来,并告诉你常见坑怎么避。
10/27/2025 1:11:00 AM
红绿灯灯灯灯

第二波!2025年10月精选实用设计干货合集

大家好,这是 2025 年 10 月第 2 波干货合集! 这一期干货合集当中,有基于 AI 的 UI 和视觉设计平台,基于 AI 的全自动切片的开源工具,有精选的 AI 创作工具推荐网站,便当风 UI 在线编辑工具,来自资深设计总监的免费设计资料库、高品质创意灵感分享网站,以及专门生成 90 年代风格配色的在线网站。 当然,在继续阅读下去之前,记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:.
10/27/2025 1:00:06 AM
陈子木

全网刷屏的「电影感」三宫格图片,教你用AI快速生成!

更多AI教程:最近这两天,被一个三宫格 AI 图片给刷屏了。 还有那三句经典的台词:. “山的那边是什么。
10/27/2025 12:35:03 AM
数字生命卡兹克

三百年几何猜想被推翻,数学家首次发现「穿不过去」的多面体

想象一下,你手里拿着两个大小相同的骰子。 有没有可能在其中一个骰子上钻一条通道(tunnel),让另一个骰子能从中滑过去? 你的直觉也许会告诉你「不可能吧」,如果是这样,你不是唯一这样认为的。
10/26/2025 7:17:00 PM
机器之心

手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

入坑机器人的春天来了。 众所周知,机器人学本质上是一个多学科交叉的领域,自 20 世纪 60 年代诞生以来,已经取得了前所未有的进步。 尤其是在大模型诞生,多模态大模型等人工智能技术蓬勃发展的当下,机器人领域与过去经典机器人学产生了重大的变化,机器人学习成为了现代机器人学的中流砥柱。
10/26/2025 7:12:00 PM
机器之心

NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题

作者介绍:德州农工大学博士生李港,专注于设计和应用高效算法到大规模机器学习和人工智能任务,包括增强大型基础模型的后训练算法、对抗性鲁棒学习算法和分布鲁棒性学习算法。 曾发表数篇论文在 NeurIPS、ICML、KDD 等顶会, 并作为主要贡献者之一发布了针对不平衡分类任务的知名软件包 LibAUC。 DeepSeek-R1 的成功吸引了人们对群体相对策略优化(GRPO)作为大型推理模型(LRM)强化学习方法的广泛关注。
10/26/2025 7:04:00 PM
机器之心

连马桶都会看图说话了,巨头敢卖,你敢坐么?

屎屁尿也是宝贵数据,卫浴巨头把AI放进厕所,看好「被动式、零交互」的健康场景。 据说,日本人来香港买楼,有一条隐形标配:TOTO 智能马桶,必不可少。 加热座圈、温柔清洗、播放自然声掩盖尴尬声音,TOTO 早就把如厕体验做成了一门细腻的生活艺术。
10/26/2025 6:57:00 PM
机器之心

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

苹果在大模型和大模型应用上总是慢人一步。 Apple Intelligence 发布也已经一年多了,除去其仍未能在国行设备上提供服务外,功能上也很难称得上有多好用。 就拿视觉生成类功能举例子,苹果的图像生成大概是这个画风:但在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。
10/26/2025 6:52:00 PM
机器之心

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。 Fast-dLLM v2 给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。 在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×。
10/26/2025 6:48:00 PM
机器之心

深度拆解,硬核解构,揭开vLLM推理系统实现高效吞吐的秘籍

在大模型应用快速发展的今天,如何让推理变得更快、更高效,已经成为研究和产业界共同关注的焦点。 vLLM 便是在这样的背景下诞生的一套高性能推理框架。 它专门针对大语言模型的推理优化,在保持模型准确性的同时,大幅提升了吞吐量与响应速度。
10/26/2025 6:40:00 PM
机器之心

Transformer 之父“叛逃”:我已经受够了 Transformer!警告:AI研究变得越来越窄,我们需要找到新的架构

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)“我真的已经受够了 Transformer。 ”——这句话来自 Transformer 的共同作者、Sakana AI 联合创始人 Llion Jones。 在旧金山 TED AI 大会上,这位被誉为“生成式 AI 时代奠基人”的研究者,突然“开炮”——不仅公开批评了整个 AI 行业的研究方向,还宣布自己已经“离开 Transformer”,开始寻找下一次重大突破。
10/26/2025 2:50:25 PM
听雨

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

Pos2Distill团队 投稿. 量子位 | 公众号 QbitAI语言模型遭遇严重的位置偏见,即模型对不同上下⽂位置的敏感度不⼀致。 模型倾向于过度关注输⼊序列中的特定位置,严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。
10/26/2025 12:15:35 PM
衡宇

P图老本事搭上了对话框,美图这AI Agent到底香不香?

梦瑶 发自 凹非寺. 量子位 | 公众号 QbitAI这些刷屏的AI图片,你刷到了没? 就是那种——和自己专属emoji合影的黏土风照片,画风长这样:本来以为是NanoBanana整的新玩法,结果点开评论区一看:嗐,原来是美图自家的AI Agent——叫RoboNeo~.
10/26/2025 12:09:23 PM
衡宇

5个大疆离职员工,把3D打印带回风口

Jay 发自 凹非寺量子位 | 公众号 QbitAI3D打印机,重新火了。 上一次是概念,这一次是实实在在的日常产品。 街头巷尾,越来越多的夜市摊位开始摆上3D打印出来的产品,龙蛋、关节龙、关节蛇成了新一代「地摊网红」。
10/26/2025 8:23:33 AM
Jay

Perplexity 重磅发布!7个章节深度解析全新AI浏览器Comet

作为一位体验设计师我很热衷于体验各类产品,早前OpenAI也发布了ChatGPT Atlas,可惜老三的电脑版本过低无法体验。 看到Comet可以用时,让我兴奋不已,因为这是对"人与信息交互方式"这一本质问题的重新思考。 更多相关干货:注:文末分享邀请链接,可注册登录免费领取一个月会员体验。
10/26/2025 1:42:06 AM
要爆炸的张老三

Yoshua Bengio,刚刚成为全球首个百万引用科学家!

刚刚,计算机科学家 Yoshua Bengio 创造了新的历史,成为 Google Scholar 上首个引用量超过 100 万的人! 打个直观的比方,如果我们将每一篇引用论文打印成册(假设平均厚度为 1 毫米),然后将它们垂直堆叠起来,这座由知识构成的纸塔将高达 1000 米。 这是什么概念?
10/25/2025 11:10:00 PM
机器之心

Anthropic、Thinking Machines Lab论文曝光:30万次压力测试揭示AI规范缺陷

即便是最详细的模型规范,也存在内部矛盾、粒度不足与解释歧义。 现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。 它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。
10/25/2025 11:05:00 PM
机器之心

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。 目前,很多 VLA(Vision-Language-Action)模型仍倾向直接输出动作,缺乏对可供性(affordance)与轨迹(trajectory)几何关系的显式推理,一旦遇到颜色相近、目标重复或容器多选等场景,就容易出错。 VLA-R1 的目标,不仅把 “会想” 这步补上,而且通过强化学习进一步加强执行动作的准确性,让机器人解释清楚再去准确执行。
10/25/2025 11:02:00 PM
机器之心