AI在线 AI在线

理论

看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一

在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器 200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。
5/15/2025 8:30:00 AM

代理式AI的五级式综合教程:从基础快速响应到全自主代码生成与执行

译者 | 核子可乐审校 | 重楼在本教程中,我们将讲解代理式架构的五个级别,从最简单的语言模型调用到完全自主的代码生成和执行系统。 本教程专为在Google Colab上无缝运行而设计。 从一个简单的“处理器”开始(仅回显模型输出),你将逐步构建路由逻辑、集成外部工具、编排多步骤工作流,并最终使模型能够规划、验证、优化并执行自己的Python代码。
5/15/2025 8:29:52 AM
核子可乐

EasyDub 配音视频生成平台:SpringBoot + Thymeleaf + Spring AI 实战开发

本项目旨在构建一个 Web 端一键生成 AI 配音视频的系统,提供从“上传视频 → 提取语音 → 翻译 → 合成音频 → 合成字幕与数字人 → 下载结果”的完整流程。 后端基于 SpringBoot,前端使用 Thymeleaf Bootstrap,结合 Redis 实现异步任务状态跟踪与进度轮询,支持多用户并发任务处理。 功能亮点🔁 全流程:上传原视频 → 翻译 → 配音合成 → 视频输出💬 Spring AI:调用 AI 模型实现翻译、合成🎞️ Web UI:Thymeleaf Bootstrap 实现进度轮询🔧 Redis Spring Task 实现异步任务与进度管理💡 实际 DEMO:上传 original_video.mp4 → 下载 linly_dubbing.mp4项目结构复制SpringBoot 构建 REST 接口视频上传与任务创建接口复制Spring Task Redis 实现任务调度配置异步线程池复制后台任务处理服务复制Redis 进度服务封装复制Web 前端 Thymeleaf Bootstrapindex.html复制本地 DEMO 流程启动 SpringBoot 应用浏览器打开 http://localhost:8080上传 original_video.mp4等待进度提示,后台完成:视频 → 音频提取 → Whisper识别 → 翻译 → 合成配音 → 视频合成下载生成的 linly_dubbing.mp4结语通过整合 Spring Boot、Thymeleaf、Redis、FFmpeg 与 AI 模型接口(Whisper、XTTSv2 等),我们构建了一个功能强大且易用的 EasyDub Web 配音系统,支持异步处理、状态轮询、数字人合成与完整视频输出。
5/15/2025 8:21:16 AM
编程疏影

AI促进智能劳动力协作的六种方式

制造业的未来并非在于取代人类工人,而是让他们工作得更聪明,AI是人类专业知识的延伸。 制造业和供应链是以人为本的行业,建立在人与人之间的联系之上。 牢固的关系是它们的基础,然而,如今这两个行业正面临着由快速技术进步和熟练工人需求增长所驱动的重大前线变革,随着合格员工日益稀缺,这种需求变得更加紧迫。
5/15/2025 7:15:00 AM
Chris Kuntz

用AI对抗AI:网络安全专家如何利用犯罪分子的工具来对付他们

一段时间以来,AI在网络安全领域一直发挥着作用。 如今,自主式AI正成为焦点。 基于预先设定的计划和目标,自主式AI能够做出选择,以优化结果,而无需开发者的干预。
5/15/2025 7:00:00 AM
Andrius

Qwen-Agent:基于通义千问的智能体开发框架全面解析

最近逛 GitHub 时,看到了 Qwen 开源的专用 Agent 框架,Qwen-Agent 。 为开发者提供了强大的工具和灵活的接口,支持构建具备指令遵循、工具使用、规划、记忆等能力的智能体应用。 本文将深入解析 Qwen-Agent 的核心功能、安装配置、使用示例及常见问题,帮助开发者快速上手并高效开发。
5/15/2025 3:25:00 AM
wayn

SpringAI更新:废弃tools方法、正式支持DeepSeek!

AI 技术发展很快,同样 AI 配套的相关技术发展也很快。 这不今天刚打开 Spring AI 的官网就发现它又又又又更新了,而这次更新距离上次更新 M7 版本才不过半个月的时间,那这次 Spring AI 给我们带来了哪些惊喜呢? 一起来看。
5/15/2025 3:00:00 AM
磊哥

“逆天”研究!Cursor 与 Windsurf 背后的核心算法机制曝光!网友惊呼:Cursor代码总出Bug的原因找到了

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Vibe coding正火得一塌糊涂,但谁能想到,刚刚一位大佬已经把当红的AI编程神器Cursor和Windsurf背后的核心算法机制研究出来了! 今天凌晨,一位名为Nir Diamant的技术大牛发表了一篇高质量神文,可以说把Cursor和Windsurf的核心算法说得非常透彻,就像玩抖音的需要了解抖音推荐算法一样,正在Vibe Coding的我们,当然也得快速吃透跟自己对话的编程助手,究竟是怎样一个思维回路。 非常细节,值得各位收藏细读一番。
5/14/2025 4:39:21 PM
云昭

微软不松手,OpenAI 不回头

OpenAI走到了一个分水岭上,正试图把自己从一个设限的实验项目,转向一个可以在资本市场独立行走的企业体。 但它不能独行。 微软挡在前头,松不开手,也不愿撒手。
5/14/2025 3:07:18 PM
文摘菌

Poe 发布 AI 模型报告:GPT-4o 独占鳌头,Gemini 推理异军突起,快手可灵黑马搅局!

AI 模型市场,就像一场不停撤掉椅子的游戏,玩家们争抢着位置。 谁坐得稳,谁被挤下,数据在说话。 Poe 平台拿出了一份报告,打开一个窗口,让我们看看 2025 年 1 月到 5 月,这个市场的风云变幻。
5/14/2025 3:06:28 PM

字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。 同时,Data Agent 和 Trae 等产品也有了新进展。 其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。
5/14/2025 3:05:21 PM

首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025

3D点云处理(PCP)涉及多种任务,如分割、去噪、配准、重建等,传统方法通常是为每个任务设计专用模型,导致过程繁杂、成本高昂。 虽然多任务学习(MTL)能缓解模型数量问题,但在任务冲突、参数调优方面仍存在挑战。 近年来兴起的In-Context Learning(ICL,上下文学习)技术,是指大型语言模型在不进行显式参数更新的情况下,仅通过输入中的示例(即上下文信息)来完成新的任务。
5/14/2025 3:03:45 PM

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。 未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。 然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。
5/14/2025 1:23:19 PM

Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。 训练和微调过程采取分段式策略,逐步构建模型能力。
5/14/2025 1:22:08 PM
量子位

o3完爆人类医生,OpenAI基准直击AGI!

最强AI,已击败了人类医生。 就在刚刚,全球60个国家,262名执业医生共同上阵,联手OpenAI打造出「最具AGI标志性」的AI健康系统评估标准——HealthBench。 这个基准包含了5,000个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
5/14/2025 10:09:12 AM

我花了整整两周,深度体验了五款最火的 AI 工具,发现它们都有个致命的问题......

Hello,大家好,我是 Sunday。 2025 年都来了,AI 工具已经不再是什么 “黑科技” 拉,而是实打实落地到我们每一个前端人日常开发流程中的 真 -- 提效神器。 但问题也来了,目前市面上 AI 工具越来越多,宣传都很猛,那么真的能用的到底几个呢?
5/14/2025 10:08:57 AM
程序员Sunday

突发,美商务部叫停「AI扩散规则」藏杀机!英伟达市值再破3万亿

《AI扩散规则》生效前夜,特朗普政府正式叫停。 13日晚,美商务部工业和安全局(BIS)宣布,撤销拜登签署的《AI扩散规则》(即将在5月15日生效)。 图片与此同时,他们又出台了加强全球半导体出口管制的新措施,这些限制可谓是又准又狠。
5/14/2025 9:57:42 AM
新智元

3D人脸黑科技!Pixel3DMM:单张RGB图像秒变3D人脸,姿势表情精准还原,几何精度碾压竞品15%!

慕尼黑工业大学和伦敦大学学院提出了一款经过微调的 DINO ViT模型 Pixel3DMM,用于逐像素表面法线和 UV 坐标预测。 从上到下,下图展示了 FFHQ 输入图像、估计的表面法线、根据预测的 UV 坐标估计的二维顶点,以及针对上述两个线索的 FLAME 拟合结果。 使用Pixel3DMM 进行野外追踪。
5/14/2025 9:23:55 AM