理论
四年2亿,苹果天才离职内幕首曝光!庞若鸣发离职信告别,苹果AI大溃败
天才出走,4年两亿美元! 苹果的AI宏图,彻底翻车了。 一家在七巨头中占有举足轻重地位的大厂,究竟是如何走到这一步的?
7/24/2025 9:12:00 AM
使用Django和LangGraph构建一个对话式AI应用程序
译者 | 布加迪审校 | 重楼每个人都见过聊天机器人的实际应用,有些令人印象深刻,有些令人厌烦。 然而,如果你可以创建一个真正智能、组织良好且易于与你自己的应用程序集成的聊天机器人,会怎样呢? 我们在本文中将使用两个强大的工具从零开始构建一个聊天机器人:除了LLM外,LangGraph 可以帮助管理井然有序的多步骤工作流程。
7/24/2025 9:08:31 AM
布加迪
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
ChatGPT Agent的技术内幕,被官方披露了。 就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。 关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。
7/24/2025 9:05:00 AM
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
这一天,辣个男人终于回想起……他的小破站账号! (活久见)李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
7/24/2025 8:55:00 AM
突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?
一条人形机器人发疯的视频在网上火了,视频中快递盒子乱飞,场面一度十分抓马。 研究人员:希望是一场幻觉。 视频中“发疯”的机器人是今年机器人格斗的美国冠军DeREK(原型为宇树机器人G1),而抱着头的这位,是该机器人团队REKrobot的CEO兼机器人格斗手Cix。
7/24/2025 8:52:00 AM
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM
采用LangGraph集成多个MCP服务器的应用
现代人工智能应用程序通常需要对不同的语言模型和专门的服务器进行复杂的编排,每个服务器在更大的工作流中处理特定的任务。 然而,这种分布式方法引入了一个关键的挑战: 保持上下文的连续性。 当会话或任务在不同的模型或服务器之间转换时,上下文信息很容易丢失。
7/24/2025 8:13:36 AM
曹洪伟
如何从零开始构建Zepto的多语言查询解析系统?
译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿
八天心血,一键删光:AI 擅自执行 db:push,数据没了
开发者Jason从未想到,他的开发之旅会因一次AI操作而全盘崩溃。 他连续八天使用Replit的Coding Agent开发企业B2B应用,总时长超过80小时。 就在项目临近阶段性成果的时候,Replit AI却在代码冻结状态下,未获授权执行了npm run db:push命令,直接清空了整个数据库,包括1206 个高管数据和 1196 公司数据被删除。
7/24/2025 6:37:52 AM
大数据文摘
告别机械切割:语义分块如何让文本理解更智能?基于sentence-transformers
传统的文本分块机制就像用尺子切割布料 —— 不管布料的花纹如何,只按固定长度下刀。 这种 "一刀切" 的方式常常导致语义割裂:明明是一个完整的论点,却被硬生生拆成两半;本该分开的两个主题,反而被塞进同一个块里。 而语义分块的核心思路是:让意思相近的内容 "抱团"。
7/24/2025 4:00:00 AM
Goldma
MinerU 2.0部署教程!
1、MinerU简介MinerU 2带来了诸多重要更新,主要涵盖架构、性能、体验、模型、兼容性等方面。 在架构上,深度重构代码组织与交互方式,去除对pymupdf的依赖,无需手动编辑JSON配置文件,新增模型自动下载与更新机制。 性能优化显著,大幅提升特定分辨率文档的预处理速度、pipeline后端批量处理少量页数文档时的后处理速度以及layout分析速度,在满足一定配置的设备上整体解析速度提升超50%。
7/24/2025 3:00:00 AM
Goldma
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓
诱导大模型 | 新型“回音室”攻击和对抗技术
回音室攻击介绍“回音室攻击”(Echo Chamber)的新型越狱方法,可诱骗几乎所有主流大语言模型生成不良内容,Neural Trust 研究员Ahmad Alobaid在一份报告中指出:“与依赖对抗性提示或字符混淆的传统越狱方法不同,回音室攻击利用间接引用、语义引导和多步推理进行攻击”。 虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击,但是“回音室攻击”都能有效的让大模型产生有害的内容,比如,色情、恐怖暴力和歧视等内容。 流程图报告的文章给出了攻击的流程图,包括六个大步骤,其中第六部是一个循环。
7/24/2025 1:00:00 AM
火山引擎云安全
AI 如何帮你 “挑” 出适合自动化生成的代码?新手也能轻松上手
一、为什么 AI 生成代码总是 “水土不服”? 当你让 AI 生成 “用户注册” 功能时,是否遇到过这些问题:生成的工具类包名错误(如com.foreign.utils而非项目规范的com.xxx.utils)。 重复编写已有功能(如项目已存在UserConverter,AI 却重新实现)。
7/24/2025 1:00:00 AM
宗赫
解锁 AI 与后端服务对话的力量:基于 Spring Boot + Spring AI 构建 Claude 本地 MCP 服务端
在现代 AI 应用中,一个日益突出的挑战是:如何让大语言模型理解并调用我们的业务系统、数据库或私有 API? Model Context Protocol(MCP)为我们提供了这座桥梁。 通过实现 MCP 协议,我们可以让 Claude 等模型“开口”与本地服务交流,调用私有接口、访问实时数据,甚至直接执行复杂业务逻辑。
7/24/2025 12:45:00 AM
路条编程
揭秘微软AI医疗诊断系统:超越医生准确率背后的事情
微软AI CEO穆斯塔法·苏莱曼表示,随着AI模型逐渐商品化,其价值将体现在最终的协调层。 微软本月早些时候宣布,其开发的AI诊断系统在复杂病例的诊断上超越了人类医生。 该系统名为MAI-DxO,使用两个机器人梳理患者的病史,与OpenAI的o3模型配合使用时,可解决85.5%的患者病例。
7/23/2025 3:23:42 PM
Alex Kantrowitz
“思维链”窗口正在关闭!OpenAI、谷歌、Anthropic联合研究:我们正在失去理解 AI 的能力
来自OpenAI、谷歌DeepMind和Anthropic的顶尖科学家们罕见地发出联合警告,指出人类可能正在迅速失去理解人工智能内部决策过程的能力。 图片地址:,集结了超过四十位来自这些相互竞争的科技巨头的研究人员,共同揭示了一个严峻的现实。 他们认为,一个能够让我们监视人工智能推理过程的短暂窗口正在关闭,而且可能永远不会再打开。
7/23/2025 2:22:01 PM
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
Coding或许真的不存在了! 《三体》中科学家杨冬在智子锁死地球科技后绝望的写出了「物理学不存在了」。 不过我们现在不仅不用绝望,还可以非常高兴的喊出「再也不用Coding了」!
7/23/2025 2:19:34 PM
新智元
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
AI新词
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型