资讯列表

分类

标签

多模态开发踩坑实录

你是不是也遇到这种情况：代码写完了、跑起来也没报错，但模型就是“不看图”？别急，这事儿很常见——多模态开发不难，难在模型是否真支持多模态。本文用最简单的方式，带你把“文字图片”的多模态对话跑起来，并告诉你常见坑怎么避。

10/27/2025 1:11:00 AM

红绿灯灯灯灯

大家好，这是 2025 年 10 月第 2 波干货合集！这一期干货合集当中，有基于 AI 的 UI 和视觉设计平台，基于 AI 的全自动切片的开源工具，有精选的 AI 创作工具推荐网站，便当风 UI 在线编辑工具，来自资深设计总监的免费设计资料库、高品质创意灵感分享网站，以及专门生成 90 年代风格配色的在线网站。当然，在继续阅读下去之前，记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货:.

10/27/2025 1:00:06 AM

陈子木

全网刷屏的「电影感」三宫格图片，教你用AI快速生成！

更多AI教程：最近这两天，被一个三宫格 AI 图片给刷屏了。还有那三句经典的台词：. “山的那边是什么。

10/27/2025 12:35:03 AM

数字生命卡兹克

三百年几何猜想被推翻，数学家首次发现「穿不过去」的多面体

想象一下，你手里拿着两个大小相同的骰子。有没有可能在其中一个骰子上钻一条通道（tunnel），让另一个骰子能从中滑过去？你的直觉也许会告诉你「不可能吧」，如果是这样，你不是唯一这样认为的。

10/26/2025 7:17:00 PM

机器之心

手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

入坑机器人的春天来了。众所周知，机器人学本质上是一个多学科交叉的领域，自 20 世纪 60 年代诞生以来，已经取得了前所未有的进步。尤其是在大模型诞生，多模态大模型等人工智能技术蓬勃发展的当下，机器人领域与过去经典机器人学产生了重大的变化，机器人学习成为了现代机器人学的中流砥柱。

10/26/2025 7:12:00 PM

机器之心

NeurIPS25高分论文｜以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

作者介绍：德州农工大学博士生李港，专注于设计和应用高效算法到大规模机器学习和人工智能任务，包括增强大型基础模型的后训练算法、对抗性鲁棒学习算法和分布鲁棒性学习算法。曾发表数篇论文在 NeurIPS、ICML、KDD 等顶会，并作为主要贡献者之一发布了针对不平衡分类任务的知名软件包 LibAUC。 DeepSeek-R1 的成功吸引了人们对群体相对策略优化（GRPO）作为大型推理模型（LRM）强化学习方法的广泛关注。

10/26/2025 7:04:00 PM

机器之心

连马桶都会看图说话了，巨头敢卖，你敢坐么？

屎屁尿也是宝贵数据，卫浴巨头把AI放进厕所，看好「被动式、零交互」的健康场景。据说，日本人来香港买楼，有一条隐形标配：TOTO 智能马桶，必不可少。加热座圈、温柔清洗、播放自然声掩盖尴尬声音，TOTO 早就把如厕体验做成了一门细腻的生活艺术。

10/26/2025 6:57:00 PM

机器之心

打造图像编辑领域的ImageNet？苹果用Nano Banana开源了一个超大数据集

苹果在大模型和大模型应用上总是慢人一步。 Apple Intelligence 发布也已经一年多了，除去其仍未能在国行设备上提供服务外，功能上也很难称得上有多好用。就拿视觉生成类功能举例子，苹果的图像生成大概是这个画风：但在开放研究领域里，苹果似乎一整个脱胎换骨，在纯粹的研究中经常会有一些出彩的工作。

10/26/2025 6:52:00 PM

机器之心

NVIDIA港大MIT联合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

自回归（AR）大语言模型逐 token 顺序解码的范式限制了推理效率；扩散 LLM（dLLM）以并行生成见长，但过去难以稳定跑赢自回归（AR）模型，尤其是在 KV Cache 复用、和可变长度支持上仍存挑战。 Fast-dLLM v2 给出了一条务实路线：将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需～1B tokens 量级的微调即可达到 “无损” 迁移，不必训练数百 B tokens（如 Dream 需～580B tokens）。在 A100/H100 上，它在保持精度的同时，将端到端吞吐显著拉高，最高可达 2.5×。

10/26/2025 6:48:00 PM

机器之心

深度拆解，硬核解构，揭开vLLM推理系统实现高效吞吐的秘籍

在大模型应用快速发展的今天，如何让推理变得更快、更高效，已经成为研究和产业界共同关注的焦点。 vLLM 便是在这样的背景下诞生的一套高性能推理框架。它专门针对大语言模型的推理优化，在保持模型准确性的同时，大幅提升了吞吐量与响应速度。

10/26/2025 6:40:00 PM

机器之心

Transformer 之父“叛逃”：我已经受够了 Transformer！警告：AI研究变得越来越窄，我们需要找到新的架构

编辑 | 听雨出品 | 51CTO技术栈（微信号：blog51cto）“我真的已经受够了 Transformer。 ”——这句话来自 Transformer 的共同作者、Sakana AI 联合创始人 Llion Jones。在旧金山 TED AI 大会上，这位被誉为“生成式 AI 时代奠基人”的研究者，突然“开炮”——不仅公开批评了整个 AI 行业的研究方向，还宣布自己已经“离开 Transformer”，开始寻找下一次重大突破。

10/26/2025 2:50:25 PM

听雨

破解AI对不同上下⽂位置的敏感度不⼀致，新框架使出“解铃还须系铃人”

Pos2Distill团队投稿. 量子位 | 公众号 QbitAI语言模型遭遇严重的位置偏见，即模型对不同上下⽂位置的敏感度不⼀致。模型倾向于过度关注输⼊序列中的特定位置，严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。

10/26/2025 12:15:35 PM

衡宇

P图老本事搭上了对话框，美图这AI Agent到底香不香？

梦瑶发自凹非寺. 量子位 | 公众号 QbitAI这些刷屏的AI图片，你刷到了没？就是那种——和自己专属emoji合影的黏土风照片，画风长这样：本来以为是NanoBanana整的新玩法，结果点开评论区一看：嗐，原来是美图自家的AI Agent——叫RoboNeo～.

10/26/2025 12:09:23 PM

衡宇

5个大疆离职员工，把3D打印带回风口

Jay 发自凹非寺量子位 | 公众号 QbitAI3D打印机，重新火了。上一次是概念，这一次是实实在在的日常产品。街头巷尾，越来越多的夜市摊位开始摆上3D打印出来的产品，龙蛋、关节龙、关节蛇成了新一代「地摊网红」。

10/26/2025 8:23:33 AM

Jay

Perplexity 重磅发布！7个章节深度解析全新AI浏览器Comet

作为一位体验设计师我很热衷于体验各类产品，早前OpenAI也发布了ChatGPT Atlas，可惜老三的电脑版本过低无法体验。看到Comet可以用时，让我兴奋不已，因为这是对"人与信息交互方式"这一本质问题的重新思考。更多相关干货：注：文末分享邀请链接，可注册登录免费领取一个月会员体验。

10/26/2025 1:42:06 AM

要爆炸的张老三

Yoshua Bengio，刚刚成为全球首个百万引用科学家！

刚刚，计算机科学家 Yoshua Bengio 创造了新的历史，成为 Google Scholar 上首个引用量超过 100 万的人！打个直观的比方，如果我们将每一篇引用论文打印成册（假设平均厚度为 1 毫米），然后将它们垂直堆叠起来，这座由知识构成的纸塔将高达 1000 米。这是什么概念？

10/25/2025 11:10:00 PM

机器之心

Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示AI规范缺陷

即便是最详细的模型规范，也存在内部矛盾、粒度不足与解释歧义。现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。

10/25/2025 11:05:00 PM

机器之心

让机器人「不仅会想，还能准确去做」，VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域，一个老大难问题是：当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时，它不仅要看懂环境，更要解释指令、规划路径 / 可操作区域，并把这些推理落实为准确的动作。目前，很多 VLA（Vision-Language-Action）模型仍倾向直接输出动作，缺乏对可供性（affordance）与轨迹（trajectory）几何关系的显式推理，一旦遇到颜色相近、目标重复或容器多选等场景，就容易出错。 VLA-R1 的目标，不仅把 “会想” 这步补上，而且通过强化学习进一步加强执行动作的准确性，让机器人解释清楚再去准确执行。

10/25/2025 11:02:00 PM

机器之心

资讯热榜

看完刘润年度演讲，教你做好AI时代的能力迁徙！后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 10分钟教会机器人工作?上海AgiBot正在重写制造业规则谷歌推出新款 Vertex AI 代理构建工具，助力企业智能化中国华电发布 “华电智” 大模型，能源管理进入智能新时代谷歌流量显著下降，People Inc. 与微软达成 AI 内容授权协议 AMD CEO 透露：多家OpenAI 级别客户争相采购AI芯片 AI 的本质不是算力，而是「上下文革命」

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果芯片 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型具身智能生成百度 Sora 工具 GPU 华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习生成式AI 架构 DeepMind 亚马逊编程特斯拉视觉 Transformer AI模型预测 MCP

资讯列表

多模态开发踩坑实录

第二波！2025年10月精选实用设计干货合集

全网刷屏的「电影感」三宫格图片，教你用AI快速生成！

三百年几何猜想被推翻，数学家首次发现「穿不过去」的多面体

手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

NeurIPS25高分论文｜以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

连马桶都会看图说话了，巨头敢卖，你敢坐么？

打造图像编辑领域的ImageNet？苹果用Nano Banana开源了一个超大数据集

NVIDIA港大MIT联合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

深度拆解，硬核解构，揭开vLLM推理系统实现高效吞吐的秘籍

Transformer 之父“叛逃”：我已经受够了 Transformer！警告：AI研究变得越来越窄，我们需要找到新的架构

破解AI对不同上下⽂位置的敏感度不⼀致，新框架使出“解铃还须系铃人”

P图老本事搭上了对话框，美图这AI Agent到底香不香？

5个大疆离职员工，把3D打印带回风口

Perplexity 重磅发布！7个章节深度解析全新AI浏览器Comet

Yoshua Bengio，刚刚成为全球首个百万引用科学家！

Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示AI规范缺陷

让机器人「不仅会想，还能准确去做」，VLA-R1把「推理+行动」带进真实世界