资讯列表
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
多视图理解推理有新的评判标准了! 什么是多视图理解? 也就是从不同视角整合视觉信息进而实现理解决策。
5/15/2025 9:10:00 AM
破解300年数学难题,智能体大突破!谷歌发布超强AI Agent
今天凌晨,谷歌Deepmind在官网发布了,用于设计高级算法的编程AI Agent——AlphaEvolve。 AlphaEvolve与谷歌的大模型Gemini实现深度集成,用于自动评估通用算法的发现与优化,可以帮助开发人员快速设计出最好、高效的矩阵算法。 简单来说,大模型擅长生成各种想法和算法,但是没人知道这些到底行不行,而AlphaEvolve相当于“质检员”,能够按照特定标准来衡量这些想法是否可行。
5/15/2025 9:08:00 AM
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。 然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。 在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生——OmniAudio:它能够直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。
5/15/2025 9:05:00 AM
DanceGRPO:首个统一视觉生成的强化学习框架
本文由字节跳动 Seed 和香港大学联合完成。 第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。
5/15/2025 9:04:00 AM
25岁MIT辍学天才一战成名!3年成为90亿美金公司CEO
硅谷又出现了一位新的天才。 AI浪潮中,一位年仅25岁的远见者正以惊人的速度改写着软件开发的未来,他就是Michael Truell,AI代码编辑器Cursor背后的母公司Anysphere的CEO。 Cursor仅仅用了12个月,ARR就达到了一亿美元,多篇业内分析认定Cursor是 「SaaS史上最快到$100M ARR的初创公司」。
5/15/2025 9:02:00 AM
Meta 推出 CATransformers 框架 助力AI行业实现减排目标
在人工智能迅猛发展的今天,Meta 的 FAIR 团队与佐治亚理工学院联合研发了一款名为 CATransformers 的全新框架。 该框架以降低碳排放为核心设计理念,旨在通过优化模型架构与硬件性能,显著减少 AI 技术在运营中的碳足迹,为可持续的 AI 发展奠定基础。 随着机器学习技术在各个领域的广泛应用,从推荐系统到自动驾驶,其背后的计算需求不断增加。
5/15/2025 9:01:02 AM
AI在线
阿里通义万相Wan2.1-VACE开源 号称首个开源的视频编辑统一模型
通义万相宣布VACE开源,这标志着视频编辑领域迎来了一次重大的技术革新。 此次开源的Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B则支持480P和720P两种分辨率。 VACE的出现,为用户带来了一站式的视频创作体验,用户无需在不同模型或工具之间频繁切换,即可完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,极大地提高了创作效率和灵活性。
5/15/2025 9:01:02 AM
AI在线
阿里巴巴开源全能视频大模型,赋能视频生成与编辑
5月14日晚,阿里巴巴正式推出了通义万相 Wan2.1-VACE,这是当前行业中功能最为全面的视频生成与编辑模型。 该模型的亮点在于它具备多种强大的能力,可以同时实现文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展和时长延展等多项基础生成和编辑功能。 这一开创性的产品标志着视频制作的门槛进一步降低,使更多的创作者能够轻松上手。
5/15/2025 9:01:02 AM
AI在线
OpenAI 升级 ChatGPT:正式引入GPT-4.1 代码能力超强
OpenAI宣布其最新AI模型GPT-4.1及GPT-4.1mini正式在ChatGPT平台上线,为全球用户带来更强大的编码能力和指令执行体验。 这一消息引发了AI领域的广泛关注,标志着ChatGPT在功能与性能上的又一次飞跃。 GPT-4.1:专为编码与高效任务打造OpenAI表示,GPT-4.1是一款高度优化的AI模型,特别在编码任务和指令遵循方面表现出色。
5/15/2025 9:01:02 AM
AI在线
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关
3天后,陶哲轩YouTube视频二更来了。 上一次,他使用GitHub Copilot(基于GPT-4),成功在33分钟内完成一页非形式化证明。 这次,他尝试了一种更短、更概念化的证明版本,并测试Claude、o4-mini能否基于之前的非形式和形式证明,生成类似的形式化代码。
5/15/2025 8:52:00 AM
所有AI工具共享记忆!MCP协议杀疯了:100%本地运行,Cursor、Claude都能用
聊完就忘? 当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了!
5/15/2025 8:35:00 AM
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器 200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。
5/15/2025 8:30:00 AM
代理式AI的五级式综合教程:从基础快速响应到全自主代码生成与执行
译者 | 核子可乐审校 | 重楼在本教程中,我们将讲解代理式架构的五个级别,从最简单的语言模型调用到完全自主的代码生成和执行系统。 本教程专为在Google Colab上无缝运行而设计。 从一个简单的“处理器”开始(仅回显模型输出),你将逐步构建路由逻辑、集成外部工具、编排多步骤工作流,并最终使模型能够规划、验证、优化并执行自己的Python代码。
5/15/2025 8:29:52 AM
核子可乐
EasyDub 配音视频生成平台:SpringBoot + Thymeleaf + Spring AI 实战开发
本项目旨在构建一个 Web 端一键生成 AI 配音视频的系统,提供从“上传视频 → 提取语音 → 翻译 → 合成音频 → 合成字幕与数字人 → 下载结果”的完整流程。 后端基于 SpringBoot,前端使用 Thymeleaf Bootstrap,结合 Redis 实现异步任务状态跟踪与进度轮询,支持多用户并发任务处理。 功能亮点🔁 全流程:上传原视频 → 翻译 → 配音合成 → 视频输出💬 Spring AI:调用 AI 模型实现翻译、合成🎞️ Web UI:Thymeleaf Bootstrap 实现进度轮询🔧 Redis Spring Task 实现异步任务与进度管理💡 实际 DEMO:上传 original_video.mp4 → 下载 linly_dubbing.mp4项目结构复制SpringBoot 构建 REST 接口视频上传与任务创建接口复制Spring Task Redis 实现任务调度配置异步线程池复制后台任务处理服务复制Redis 进度服务封装复制Web 前端 Thymeleaf Bootstrapindex.html复制本地 DEMO 流程启动 SpringBoot 应用浏览器打开 http://localhost:8080上传 original_video.mp4等待进度提示,后台完成:视频 → 音频提取 → Whisper识别 → 翻译 → 合成配音 → 视频合成下载生成的 linly_dubbing.mp4结语通过整合 Spring Boot、Thymeleaf、Redis、FFmpeg 与 AI 模型接口(Whisper、XTTSv2 等),我们构建了一个功能强大且易用的 EasyDub Web 配音系统,支持异步处理、状态轮询、数字人合成与完整视频输出。
5/15/2025 8:21:16 AM
编程疏影
Meta 推出 CATransformers 框架,AI 减排新利器
Meta的FAIR团队与佐治亚理工学院研发的CATransformers框架,将碳排放作为核心设计考量,通过联合优化模型架构与硬件性能,显著降低总碳足迹,为可持续AI发展迈出重要一步。
5/15/2025 7:20:35 AM
故渊
AI促进智能劳动力协作的六种方式
制造业的未来并非在于取代人类工人,而是让他们工作得更聪明,AI是人类专业知识的延伸。 制造业和供应链是以人为本的行业,建立在人与人之间的联系之上。 牢固的关系是它们的基础,然而,如今这两个行业正面临着由快速技术进步和熟练工人需求增长所驱动的重大前线变革,随着合格员工日益稀缺,这种需求变得更加紧迫。
5/15/2025 7:15:00 AM
Chris Kuntz
用AI对抗AI:网络安全专家如何利用犯罪分子的工具来对付他们
一段时间以来,AI在网络安全领域一直发挥着作用。 如今,自主式AI正成为焦点。 基于预先设定的计划和目标,自主式AI能够做出选择,以优化结果,而无需开发者的干预。
5/15/2025 7:00:00 AM
Andrius
谷歌 DeepMind 发布 AlphaEvolve:AI 革新算法发现,刷新 11 维接吻数纪录
谷歌 DeepMind 团队推出革命性编码工具 AlphaEvolve,基于 Gemini 2.0 大语言模型(LLMs),自动化算法发现过程,解决传统算法设计和科学发现中依赖专家直觉和手动迭代的局限性。
5/15/2025 6:32:31 AM
故渊