资讯列表
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
10/28/2025 8:30:00 AM
AI“工作陷阱”:唯有培训能破解的新型生产力杀手
AI为工作者带来了提高效率和生产力的希望,使他们从重复性工作中解放出来,从而能够处理更复杂的任务,但是,随着企业向员工推出AI工具,许多人面临着不同的挑战:AI生成的工作成果适得其反。 AI生成内容的质量在很大程度上取决于与该工具协作人员的技能,而并非每个人都具备这方面的正确技能,这导致斯坦福社交媒体实验室和Betterup实验室创造了“AI工作烂稿(AI workslop)”一词——他们将其定义为“伪装成优秀成果的AI生成的工作内容,但缺乏实质性内容来有意义地推进既定任务”。 Pegasystems公司的CTO Don Schuerman表示:“当企业在错误的时间使用错误的AI时,就会出现AI工作烂稿,即将为创造性和推理而设计的大型语言模型部署到需要精确性、治理性和可靠性的情境中。
10/28/2025 7:00:00 AM
Sarah White
揭秘 MCP Streamable HTTP 协议亲和性的技术内幕
背景传统的 Serverless 平台一般都是面向无状态应用的,通过将请求分发到不同的可以自动扩展的函数实例,从而为应用提供极致的弹性、按量付费等能力。 然而,针对存在会话概念的应用,传统的 Serverless 平台就不能够在后端有多个副本的情况下,将属于某个会话的请求转发到服务该会话的函数实例,从而该类应用无法在不引入外部存储同步会话状态的情况下运行在 Serverless 平台上。 外部存储的引入是有代价的,一方面,某个函数的能扩展的副本数量/会话数量,会受到存储能被多少函数实例并发访问的限制,另外一方面,访问持久化存储/通过网络访问外部存储都会引入额外的开销。
10/28/2025 4:11:00 AM
叶浩田
深刻理解Claude Skills-构建AI时代的组织和个体进化之路-加速从AI Agent到Agentic AI演进
Hello,大家好,我是人月聊IT。 今天接着AI和大模型方面的话题。 即大模型厂商Anthropic最近刚推出的Claude Skills。
10/28/2025 2:33:00 AM
何明璐
从 YAML 到 Markdown:规范驱动开发的演化与 AI 原生范式的崛起
十年前,我们开始用 YAML 编排容器、声明服务、配置 CI/CD;十年后,我们开始用 Markdown 定义 AI 的行为、规则和协作方式。 从 Kubernetes 的 deployment.yaml 到 GitHub 的 .prompt.md、AGENTS.md、SpecKit,我们正经历一次新的"声明式革命"——从声明基础设施,到声明智能。 从云原生到 AI 原生:从 YAML 到 Markdown 的转折在云原生时代,开发者的使命是"让机器理解我们的配置"。
10/28/2025 2:22:00 AM
JImmy Song
最有效的AI幻觉预防技巧:让AI输出更可靠的六个关键方法
如今,AI已成为职场中处理研究、总结报告的常用工具,但“幻觉”问题——即AI编造看似合理却不实的信息,比如虚构链接、伪造数据来源——常常让使用者踩坑。 我曾在研究AI工具应用时,让ChatGPT整合最新报告与案例,它很快生成了一份附带来源链接的详细总结,初看完美可用,可核查后发现近半数链接要么显示404错误,要么跳转至无关网站,甚至指向根本不存在的页面。 后续排查发现,问题并非出在深度搜索功能本身,而是在要求AI重新格式化结果时,受上下文长度限制,AI自行编造了链接。
10/28/2025 2:11:00 AM
大模型之路
揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力
揭秘Fathom-DeepResearch:让小模型也能做深度研究的秘密武器论文链接::、研究背景:为什么我们需要更聪明的搜索助手? 想象一下,你想了解一个复杂的问题,比如"某个体育赛事的历史背景和相关人物",你会怎么做? 可能需要在搜索引擎上反复查询,打开无数网页,然后自己整理信息。
10/28/2025 2:11:00 AM
ChallengeHub
九种高级 RAG 技术及其实现方法
本文将探讨 9 种关键的高级检索增强生成 (RAG) 技术,并介绍如何借助相关工具实现它们。 在实际的 AI 应用中,RAG 技术能有效优化 RAG 管道的准确性和灵活性。 从更智能的文本分块(chunking)到混合搜索(hybrid search)和上下文蒸馏(context distillation),这些方法对于提供更快、更准确的响应至关重要。
10/28/2025 2:11:00 AM
ChallengeHub
AI大模型专栏正式开撸:DeepSeek本地部署+避坑指南
本文旨在提供一个全面且详细的DeepSeek本地部署指南,帮助大家在自己的设备上成功运行DeepSeek模型。 无论你是AI领域的初学者还是经验丰富的开发者,都能通过本文的指导,轻松完成DeepSeek的本地部署。 一、本地部署的适用场景DeepSeek本地部署适合以下场景:高性能硬件配置:如果你的电脑配置较高,特别是拥有独立显卡和足够的存储空间,那么本地部署将能充分利用这些硬件资源。
10/28/2025 2:00:00 AM
冰河
盲人复明!马斯克Neuralink联创实现人工视觉里程碑
盲人复明,太了不起了。 这可能是2025年最低调但又最闪亮的科技进展了。 Nature最新刊登了新研究进展,人工视觉技术刚刚帮助一位70岁奶奶重获光明。
10/28/2025 1:55:00 AM
在 AI 集成的狂飙时代,Spring AI 的 MCP 协议 + OAuth2 才是安全感天花板!
在 AI 集成领域卷得飞起的当下,保证 AI 模型和外部工具之间通信安全,那可是头等大事。 Spring AI 的模型上下文协议(MCP)本来就很擅长搞定这种交互,如今又更新了一波 —— 把 OAuth2 这层 “安全铠甲” 嵌进去的操作,简直比喝奶茶加珍珠还丝滑。 1.为啥 MCP 非得配上 OAuth2?
10/28/2025 1:33:00 AM
iron guo
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜!
人形机器人,也成为了AI圈最大的骗局? 最近在MIT的一场讲座中,Meta首席AI科学家LeCun一语道破了机器人界最大的秘密——这些公司压根不知道,如何让机器人变得足够「聪明」,或是说达到通用智能的程度。 家用机器人的实现,还需要AI领域取得一系列突破。
10/28/2025 1:22:00 AM
新智元
作为一个AI博主,我劝你先别急着用AI
周末看到了宝玉老师的一个帖子,我自己其实有非常强烈的共鸣。 宝玉老师说的是编程,而我在创作这块,其实一直都有相同的观点:. 如果你是一个想在某个领域,真正深耕下去,想成为这个领域的专家,那么,在你独立、手动、不借助(或极少借助)AI,完成 1000 个小时的刻意练习之前,离 AI 远一点。
10/28/2025 1:19:05 AM
数字生命卡兹克
战火升级!奥特曼正式杀入脑机接口,这次不用切脑
奥特曼与马斯克的战火,蔓延到了脑机接口领域! 近日,据知情人士透露,奥特曼邀请了屡获殊荣的生物分子工程专家Mikhail Shapiro加入他即将与联合创始人Alex Blania共同创建的脑机接口创业公司Merge Labs。 Merge Labs正在探索通过基因改造脑细胞、结合超声技术来打造更先进的脑部植入装置(BCI)。
10/28/2025 1:15:00 AM
新智元
为什么你的 RAG 系统在复杂问题上失灵?
本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长,并附实现示例Large Language Models(LLM,大型语言模型)在文本生成和复杂推理方面展现了卓越能力。 但它们并不完美。 当 LLM 用于真实世界场景时,会面临多种挑战:有时会出现“幻觉”,有时会给出过时的答案。
10/28/2025 1:10:00 AM
AI研究生
Agent框架、运行时与工具集 - AI开发生态的三大支柱
在AI开发领域,我们经常听到各种技术术语,但很少有人能清晰地解释它们之间的区别。 今天,我们来深入探讨三个核心概念:Agent框架(Framework)、Agent运行时(Runtime)和Agent工具集(Harness)。 LangChain团队维护着几个不同的开源项目:LangChain和LangGraph是其中最重要的两个,而DeepAgents正在成为越来越受欢迎的新星。
10/28/2025 12:00:00 AM
阿丸笔记
小说一键转有声剧!豆包语音团队提出「AI多人有声剧」方案,沉浸感拉满了
「东州市第一监狱,犯人屠国安被狱警带到了招待室。 门一开,他看到有人背对着他,对方短发,身形纤瘦,姿态挺拔,在他的记忆里,并没有这样的熟人。 」这段文字源自一本知名的刑侦小说《遮云》,而下面这段音频是对应章节的「有声」版本,先听听:在音频最开始的一分钟里,我们就听到了人物对白和旁白解说,脚步、开门、坐下、手铐晃动和递名片的声音,背景音乐等多种元素。
10/27/2025 7:00:00 PM
机器之心
上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」
传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。 而大语言模型与智能体的出现,将数据分析从「规则执行」推向「语义理解」,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。 近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。
10/27/2025 6:54:00 PM
机器之心