AI
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话
GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。 现在,紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。 OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
大模型在潜空间中推理,带宽能达到普通(显式)思维链(CoT)的2700多倍? 史上首篇潜空间推理综述,对这种新兴的推理范式进行了全面总结。 这篇综述当中,作者分析了循环、递归、连续思维等潜空间推理的形式,并将这些方法总结成了一个框架。
七个月翻一番!AI Agent能力飙升,METR报告揭示指数级进化规律
Agent能力每7个月翻一番! 根据非营利研究机构METR最新发布的报告,这一规律已在9项基准测试中得到了验证。 这些任务涉及编程、数学、计算机使用、自动驾驶等领域,表明大模型正在不断向着高度自动化迈进。
老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元
种子轮,估值120亿美元! 硅谷乃至全球创纪录的创业种子轮诞生了。 OpenAI前CTO Mira创业公司,Thinking Machines Lab——思考机器实验室,刚刚公告了首款融资情况:顺利筹集约20亿美元(约合人民币143亿元),公司估值一夜飙升至120亿美元(约合人民币861亿元),成为硅谷史上最大种子轮之一。
加拿大丛林迷路五小时,ChatGPT救命神技,比地图还靠谱!
最近,X平台上一个帖子火了,一群人在加拿大偏远的小镇Mabou骑全地形车(ATV)玩,结果迷路了整整五小时,最后靠ChatGPT导航才安全回来。 Mabou是个小地方,周围全是没开发过的森林和小路。 他们本来打算从Upper Southwest Mabou Rd出发,骑18公里到Whycocomagh玩一圈。
倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!
AI驯服人类第一步:教人重新说英语? 最近,越来越多的媒体发现:说话的方式,越来越像ChatGPT了! 这不是模仿,而是「入侵」。
秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人
就在刚刚,国内第一家免费公开可用的「深度研究」产品来了! 这个产品,可以直接对标海外的Deep Research能力,性能十分强大。 在BrowseComp等评测集上,它们超越了上周刚开源且达到最好结果的WebSailor模型,准确率有明显提升。
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
深度学习界的传奇论文,终于等来了它的“封神”时刻! 刚刚,ICML 2025会议上,2015年发表的Batch Normalization(批次归一化,简称BatchNorm)论文荣获时间检验奖。 这篇如今引用量超过6万次的开创性工作,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。
帮助职场人士提高办公效率的十款免费人工智能工具
译者 | 李睿审校 | 重楼提高办公效率并不能只依赖埋头苦干。 在通常情况下,“巧干胜于蛮干”。 因此,为了持续领先,关键在于融合个人才智、专注投入,以及高效应对日常挑战的方案。
消息称亚马逊低估工作量,网页版 Alexa AI 延至 7 月 31 日后上线
AI在线 7 月 16 日消息,科技媒体 Windows Central 今天(7 月 16 日)发布博文,报道称亚马逊低估了上线网页版 Alexa 的工作量,因此决定推迟至 7 月 31 日以后上线该服务。 AI在线此前报道,亚马逊在今年 2 月的活动中,计划今年 6 月中旬推出网页版 Alexa 虚拟助手,即 Alexa.com。 最新披露的文件显示,亚马逊公司内部正积极推动该服务落地,但从目前曝光的细节来看,该公司低估了成功推出所需的工作量,因此公司高层宣布,“不早于 7 月 31 日”上线该服务。
一文带你彻底理解 AIGC、Agent、MCP 的概念和关系
作者 | willzhen近两年 AI 技术发展迅猛,日新月异。 大语言模型 (LLM)、AIGC、多模态、RAG、Agent、MCP 等各种相关概念层出不穷,若不深入了解,极易混淆。 本文旨在简要介绍这些 AI 技术的核心概念、基本原理及其相互关系,主要帮助非 AI 行业的开发者建立基础认知。
Gartner:数据可用性和质量是实施AI面临的首要挑战
7月15日消息,市场研究机构Gartner一项新调查显示,数据的可用性与质量始终是AI实施过程中面临的关键难题。 该调查于2024年第四季度进行,目的是了解企业如何使用AI和生成式人工智能(GenAI)。 来自美国、英国、法国、德国、印度和日本的432名受访者参与了此次调查。
放世界任务成功率82%!美的攻克机器人泛化控制难题
还在担心机器人只能机械执行、不会灵活应变? 美的AI研究院和华东师范大学联合提出ChatVLA-2——一个具有开放世界具身推理能力的视觉-语言-动作模型(VLA)模型。 它引入动态混合专家架构,并结合双阶段训练流程,不仅最大程度保留了视觉-语言模型(VLM)的多模态认知和推理能力,还能将推理结果真正转化为可执行的动作。
Switch的救世主是老黄!?
Switch2发售后,内置图形API——NVN2首次公开亮相。 相较前代Switch发热、卡顿、续航短、画质缩水等问题,搭载英伟达NVN2的Switch2显然从容得多,面对各类3A大作也毫不吃力。 《赛博朋克2077》的联合开发者Eoin O'Grady表示,只要是Xbox上能跑满60帧的游戏,移植到Switch2几乎都不在话下。
卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像
疯狂,太疯狂了~大神卡帕西预测的「下一代GUI系统」这就水灵灵地实现了? 玩法相当easy,当你移动鼠标、点击图标或敲键盘时,这个完全由神经网络驱动的操作系统就和咱们平时的电脑一样,能在屏幕上实时显示对应的图形界面。 就是说,AI现在能完全模拟Windows,直接预测下一帧屏幕图像。
AI重塑游戏未来:79%开发者拥抱,8大环节迎革新|AI+游戏产业变革研究报告发布
分析师 卡洛琳 量子位智库 | 公众号 AI123All. 在文生图、文生3D等技术被更多人理解后,我们想要系统、全面地了解AI从哪些方面影响了游戏。 量子位智库对此做了深入的研究,发现在游戏领域:1)有利用AI的强烈需求和开放的态度;.
消息称 Meta 正讨论放弃开源 AI 模型 Behemoth,转向闭源战略
AI在线 7 月 15 日消息,《纽约时报》报道称,Meta 新成立的超级智能实验室(Superintelligence Lab)正在讨论放弃其强大的开源人工智能模型“Behemoth”,转而开发闭源模型。 据消息人士透露,Meta 已完成对“Behemoth”模型的训练,但由于其内部测试表现未达预期,该模型的发布被推迟。 随着超级智能实验室的启动,对“Behemoth”模型的测试也已暂停。
元科学可以改进科学——但它也必须对社会有用
编辑丨&7 月 2 日,一项科学倡议在伦敦的一间演讲厅诞生,元科学联盟由此成立。 该联盟由 25 个以上的资助机构、学术团体、企业及其他机构组成,其核心使命是推动元科学的发展 —— 即运用科学方法来理解并改进科学研究本身。 该联盟选择在此时成立,是因为相关领域的社群已形成足够规模,并且元科学也获得了更广泛的认可。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉