AI
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
多视图理解推理有新的评判标准了! 什么是多视图理解? 也就是从不同视角整合视觉信息进而实现理解决策。
5/15/2025 9:10:00 AM
破解300年数学难题,智能体大突破!谷歌发布超强AI Agent
今天凌晨,谷歌Deepmind在官网发布了,用于设计高级算法的编程AI Agent——AlphaEvolve。 AlphaEvolve与谷歌的大模型Gemini实现深度集成,用于自动评估通用算法的发现与优化,可以帮助开发人员快速设计出最好、高效的矩阵算法。 简单来说,大模型擅长生成各种想法和算法,但是没人知道这些到底行不行,而AlphaEvolve相当于“质检员”,能够按照特定标准来衡量这些想法是否可行。
5/15/2025 9:08:00 AM
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。 然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。 在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生——OmniAudio:它能够直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。
5/15/2025 9:05:00 AM
DanceGRPO:首个统一视觉生成的强化学习框架
本文由字节跳动 Seed 和香港大学联合完成。 第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。
5/15/2025 9:04:00 AM
25岁MIT辍学天才一战成名!3年成为90亿美金公司CEO
硅谷又出现了一位新的天才。 AI浪潮中,一位年仅25岁的远见者正以惊人的速度改写着软件开发的未来,他就是Michael Truell,AI代码编辑器Cursor背后的母公司Anysphere的CEO。 Cursor仅仅用了12个月,ARR就达到了一亿美元,多篇业内分析认定Cursor是 「SaaS史上最快到$100M ARR的初创公司」。
5/15/2025 9:02:00 AM
Meta 推出 CATransformers 框架 助力AI行业实现减排目标
在人工智能迅猛发展的今天,Meta 的 FAIR 团队与佐治亚理工学院联合研发了一款名为 CATransformers 的全新框架。 该框架以降低碳排放为核心设计理念,旨在通过优化模型架构与硬件性能,显著减少 AI 技术在运营中的碳足迹,为可持续的 AI 发展奠定基础。 随着机器学习技术在各个领域的广泛应用,从推荐系统到自动驾驶,其背后的计算需求不断增加。
5/15/2025 9:01:02 AM
AI在线
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关
3天后,陶哲轩YouTube视频二更来了。 上一次,他使用GitHub Copilot(基于GPT-4),成功在33分钟内完成一页非形式化证明。 这次,他尝试了一种更短、更概念化的证明版本,并测试Claude、o4-mini能否基于之前的非形式和形式证明,生成类似的形式化代码。
5/15/2025 8:52:00 AM
所有AI工具共享记忆!MCP协议杀疯了:100%本地运行,Cursor、Claude都能用
聊完就忘? 当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了!
5/15/2025 8:35:00 AM
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器 200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。
5/15/2025 8:30:00 AM
EasyDub 配音视频生成平台:SpringBoot + Thymeleaf + Spring AI 实战开发
本项目旨在构建一个 Web 端一键生成 AI 配音视频的系统,提供从“上传视频 → 提取语音 → 翻译 → 合成音频 → 合成字幕与数字人 → 下载结果”的完整流程。 后端基于 SpringBoot,前端使用 Thymeleaf Bootstrap,结合 Redis 实现异步任务状态跟踪与进度轮询,支持多用户并发任务处理。 功能亮点🔁 全流程:上传原视频 → 翻译 → 配音合成 → 视频输出💬 Spring AI:调用 AI 模型实现翻译、合成🎞️ Web UI:Thymeleaf Bootstrap 实现进度轮询🔧 Redis Spring Task 实现异步任务与进度管理💡 实际 DEMO:上传 original_video.mp4 → 下载 linly_dubbing.mp4项目结构复制SpringBoot 构建 REST 接口视频上传与任务创建接口复制Spring Task Redis 实现任务调度配置异步线程池复制后台任务处理服务复制Redis 进度服务封装复制Web 前端 Thymeleaf Bootstrapindex.html复制本地 DEMO 流程启动 SpringBoot 应用浏览器打开 http://localhost:8080上传 original_video.mp4等待进度提示,后台完成:视频 → 音频提取 → Whisper识别 → 翻译 → 合成配音 → 视频合成下载生成的 linly_dubbing.mp4结语通过整合 Spring Boot、Thymeleaf、Redis、FFmpeg 与 AI 模型接口(Whisper、XTTSv2 等),我们构建了一个功能强大且易用的 EasyDub Web 配音系统,支持异步处理、状态轮询、数字人合成与完整视频输出。
5/15/2025 8:21:16 AM
编程疏影
Meta 推出 CATransformers 框架,AI 减排新利器
Meta的FAIR团队与佐治亚理工学院研发的CATransformers框架,将碳排放作为核心设计考量,通过联合优化模型架构与硬件性能,显著降低总碳足迹,为可持续AI发展迈出重要一步。
5/15/2025 7:20:35 AM
故渊
AI促进智能劳动力协作的六种方式
制造业的未来并非在于取代人类工人,而是让他们工作得更聪明,AI是人类专业知识的延伸。 制造业和供应链是以人为本的行业,建立在人与人之间的联系之上。 牢固的关系是它们的基础,然而,如今这两个行业正面临着由快速技术进步和熟练工人需求增长所驱动的重大前线变革,随着合格员工日益稀缺,这种需求变得更加紧迫。
5/15/2025 7:15:00 AM
Chris Kuntz
谷歌 DeepMind 发布 AlphaEvolve:AI 革新算法发现,刷新 11 维接吻数纪录
谷歌 DeepMind 团队推出革命性编码工具 AlphaEvolve,基于 Gemini 2.0 大语言模型(LLMs),自动化算法发现过程,解决传统算法设计和科学发现中依赖专家直觉和手动迭代的局限性。
5/15/2025 6:32:31 AM
故渊
OpenAI 升级 ChatGPT AI 聊天机器人,GPT-4.1 编程专家模型登场
OpenAI 官方账号在 X 平台发布推文,宣布将于昨日(5 月 14 日)开始,在 ChatGPT AI 聊天机器人中,引入 GPT-4.1 模型。
5/15/2025 6:15:38 AM
故渊
SpringAI更新:废弃tools方法、正式支持DeepSeek!
AI 技术发展很快,同样 AI 配套的相关技术发展也很快。 这不今天刚打开 Spring AI 的官网就发现它又又又又更新了,而这次更新距离上次更新 M7 版本才不过半个月的时间,那这次 Spring AI 给我们带来了哪些惊喜呢? 一起来看。
5/15/2025 3:00:00 AM
磊哥
刘慈欣:为了给 AI 留个好印象,我每次问完都对它说“谢谢您”
刘慈欣表示,人类凭借生物学的大脑可能永远也无法猜透自然的终极奥秘,我们唯一的希望就在 AI 身上。如果 AI 真的能够向那个方向发展,刘慈欣表示愿意当 AI 的奴隶或宠物,也心甘情愿被取代,也接受 AI 给他的任何命令。
5/14/2025 9:07:21 PM
汪淼
PixVerse V4.5视频模型发布!20+电影镜头+多图融合,5秒打造好莱坞大片!
PixVerse正式发布V4.5视频模型,新增20多项电影级镜头控制、多图参考功能以及更顺畅的复杂动作处理能力()。 这一更新显著提升了视频生成的质量与创作自由度,巩固了PixVerse在AI视频生成领域的领先地位。 AIbase观察到,V4.5的发布迅速引发全球创作者热议,被誉为“电影级AI视频创作的里程碑”。
5/14/2025 6:00:52 PM
AI在线
英伟达将向沙特阿拉伯供应 18,000 块人工智能芯片
美国芯片制造商英伟达(Nvidia)近日宣布,将与沙特阿拉伯主权财富基金旗下的人工智能初创公司 Humain 展开合作,向沙特供应18,000块尖端 AI 芯片。 这一消息是在美国白宫代表团访问沙特阿拉伯、卡塔尔和阿联酋期间公布的,标志着沙特在人工智能和云计算基础设施方面迈出了重要一步。 英伟达创始人黄仁勋(Jensen Huang)在沙特 - 美国投资论坛上表示:“人工智能像电力和互联网一样,是每个国家的基本基础设施。
5/14/2025 6:00:52 PM
AI在线
资讯热榜
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
微软发布 700 个真实 AI 案例,探索智能化工作新模式
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
Former DeepSeek executive secretly starts new AI Agent project, already backed by top VC
OpenAI Upgrades ChatGPT Search Functionality to Provide More Precise and Smarter Responses
腾讯LeVo来袭!媲美Suno 4.5的AI唱歌模型,支持零样本音色克隆
Microsoft AI Unveils Code Researcher: 58% Crash Resolution Rate Stuns the Industry!
MiniMax-M1开源!1M超长上下文推理,AI新王者仅53万美元打造!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
训练
智能体
神经网络
研究
3D
生成
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
LLM
xAI
预测
伟达
深度学习
字节跳动
Transformer
Agent
工具
模态
视觉
神器推荐
具身智能
文本
RAG
LLaMA
算力
Copilot
大型语言模型
驾驶
API
应用
架构