理论
Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”
昨天,kim发布了一款“万能型”音频大模型— Kimi-Audio,支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。 换句话说,它可以听、可以说、可以理解、可以对话,支持实时语音会话,多轮交流。 图片一套架构,横扫音频全场景,开源可用。
4/28/2025 2:10:22 PM
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
多模态大模型几何解题哪家强? 首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了! GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。
4/28/2025 2:04:03 PM
量子位
华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
ChatGPT居然帮人治好了医生都搞不定的病! 华人博士@Yuchenj_UW分享了自己的神奇经历,并感叹:AI就像超能力。 我第一次真正相信AI可能会取代医生。
4/28/2025 2:02:08 PM
新智元
Gartner高级研究总监赵宇:技术跃升带来的隐忧,探索AI智能体的安全挑战与治理
2024年,生成式AI与大模型的爆发式增长,推动AI技术从“工具辅助”迈向“自主决策”的新阶段。 AI智能体(AI Agent)作为这一趋势的核心载体,正逐渐渗透至企业服务、智能制造、金融、医疗等关键领域。 然而,技术的快速迭代往往伴随着未被充分认知的风险。
4/28/2025 1:29:30 PM
张诚
AAAI2025 | ICLR 2025爆款!CHiP创新引入视觉偏好,幻觉率腰斩
一眼概览CHiP 提出了一种跨模态分层偏好优化方法,通过视觉与文本偏好双重引导,显著提升多模态大模型(MLLMs)在幻觉检测任务中的表现,最高减少55.5%的幻觉率。 核心问题多模态大模型(如GPT-4V、LLaVA)虽具强大能力,但常产生“幻觉”——即图文语义不一致、生成不符合图像内容的描述。 现有DPO方法仅基于文本偏好,难以有效对齐图像和文本的表示,也无法细粒度定位幻觉段落,限制了模型可信度与实用性。
4/28/2025 12:28:27 PM
萍哥学AI
轮到“OpenAI帮”上场了!15家由前员工创办的明星创业公司
编辑 | 云昭曾经硅谷有“PayPal帮”,现在轮到“OpenAI帮”登场了。 作为ChatGPT背后的公司,OpenAI无疑是当前AI领域最炙手可热的玩家。 过去两年,OpenIAI的发展可以用“独占鳌头”来形容,估值迅速飙升至3000亿美元,当然公司的迅速发展往往伴随着剧烈的人员动荡。
4/28/2025 11:57:12 AM
云昭
DeepSeek R2提前泄露?周二或周三发布?海外谣言一夜刷屏,HggingFace CEO一帖子引疯狂猜想,DS又被消费了
昨天晚上,“DeepSeek R2提前泄露”的传言刷屏 AI 圈,原因尽然来自Hugging Face CEO 在推特的一条帖子,引发全网猜测。 帖子表达的信息有些晦涩:三个眼睛表情,配上了DeepSeek 在 Hugging Face 的仓库链接()以及相关配图。 网友难免会联想猜测:也许DeepSeek R2 即将上线发布。
4/28/2025 11:40:14 AM
奥特曼自曝:改版后的GPT-4o谄媚过头了,系情绪价值拉满后的结果,实测:大厂薅开源羊毛有错吗?没错!能被薅说明项目有价值
2个多小时前,OpenAI CEO 奥特曼发推表示:最新版 GPT-4o 在最近几次更新后出现了“过度谄媚”的交互个性倾向(即使其中有好的部分),并承诺将尽快在一周内推出修复方案。 自3月27日吉卜力风格大火以来,GPT-4o在 4 月 25 日也迎来了新一波的更新,重点改进其记忆存储时机的选择机制,并显著增强其在科学、技术、工程及数学(STEM)领域的问题解决能力。 OpenAI在此期间对GPT-4o的对话响应模式进行了细微调整,使其在交互中更加主动,并能更精准地引导对话达成有效结论。
4/28/2025 10:39:18 AM
一文了解人工智能代理的开源堆栈
我记得一个周末,我坐下来,确信自己终于可以构建一个像样的研究助理代理原型了。 没什么特别的——只是能读取 PDF 文件、提取关键信息,或许还能回答一些后续问题而已。 应该很简单,对吧?
4/28/2025 9:53:40 AM
晓晓
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
团队由 IEEE 会士,纽约大学教授 Claudio Silva 和纽约大学研究助理教授钱靖共同指导。 论文由Chenyi Li和Guande Wu共同第一作者。 在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。
4/28/2025 9:42:00 AM
机器之心
特朗普新行政命令,要求全美国学校教AI
美国白宫官网消息,特朗普发布了新的行政命令——《推动美国青少年的AI教育》特朗普要求全美国的K12(从幼儿园到高中)学校的老师、学生深度学习、使用AI,为下一世代的工作方式、创造力培养人才奠定竞争基础。 以下是美国白宫的原文内容。 根据美利坚合众国宪法和法律赋予我作为总统的权力,现命令如下:为什么颁发此命令AI(人工智能)正在迅速改变现代世界,推动各行业的创新,提高生产力,并重塑我们的生活和工作方式。
4/28/2025 9:20:53 AM
微软发布2025工作趋势:每位员工将是Agent老板
微软在官网发布了2025年工作趋势指数报告,主要分析了来自中国、美国、澳大利亚、巴西、加拿大等全球31个国家/地区的31,000家企业。 同时结合了Linked劳动力市场趋势,数万亿个Microsoft365生产力信号,以及原生初创企业、学者、经济学家、科学家和思想领袖的意见。 结果显示,由Agent智能体 人类的“人机协作”模式正在重塑企业架构,一种全新形态的“前沿公司”诞生。
4/28/2025 9:17:47 AM
AIGC开放社区
7x24小时非人类科学家入场:当AI开始自主探索科学未知领域 | 多伦多大学
自主通才科学家(AGS)正成为现实! 来自多伦多大学、IIT、清华大学、浙江大学、罗格斯大学、哈佛大学、佐治亚理工学院和伦敦大学学院的跨学科团队的最新研究指出,融合人工智能与机器人技术的“自主通才科学家(AGS)”不仅能独立完成从文献综述到实验验证的全流程,更可能以指数级速度推动科学发现,突破人类能力的物理与认知边界。 除此之外,其团队还构建了将AI大脑与机器人躯体深度融合的通用科研系统概念框架,展示了机器人与AI科学家在自然科学、形式科学、应用科学、人文科学,以及跨学科科学等全科学领域的原创性发现的潜力。
4/28/2025 9:16:00 AM
量子位
1亿图文对!格灵深瞳开源RealSyn数据集,CLIP多任务性能刷新SOTA
新的亿级大规模图文对数据集来了,CLIP达成新SOTA! 格灵深瞳最新发布的高质量数据集RealSyn,不仅规模大——包含1亿组图文对,而且每张图片都同时关联多个真实和合成文本。 所有的图像和句子都基于冗余进行了严格过滤,在确保数据质量的同时,引入基于簇的语义平衡采样策略,构建了可满足多样工作需求的三种规模大小的数据集:15M、30M、100M。
4/28/2025 9:14:00 AM
量子位
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
GPT-4o生成的第一视角机器人打字图这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。 研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。 他们设计了两项关键操作:token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数;token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。
4/28/2025 9:10:00 AM
新智元
智能体 Agent 与工作流构建实战指南:从选型决策到高效实施
作者 | fred历经多个业务系统的构建,我深感Anthropic的《Build effective agents》一文与自身实战经历高度契合。 本文在详解工作流与Agent的技术选型标准、设计模式应用及实施要点的同时,也融入了我的实战心得与实践经验总结。 无论您正考虑构建工作流系统还是Agent系统,都能在此找到适合场景的最佳实践方案。
4/28/2025 9:10:00 AM
腾讯技术工程
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然——它能准确破解你的地理位置! 就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。 他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实!
4/28/2025 9:08:00 AM
新智元
一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
这几年,AI领域的科研人员遇到一个问题。 那就是机器学习的论文实在是多到看不过来,更别说还要用代码实现论文中逻辑。 HuggingFace上的「每日论文」板块每天都有十几篇新出的研究论文这导致一个问题,研究者往往「重视结果」而没有精力来用用代码验证,并且复现很多先前的工作有点「重复造轮子」,浪费研究者的精力。
4/28/2025 9:06:00 AM
新智元
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉