理论
一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真
如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
4/24/2025 9:16:00 AM
新智元
大学文凭成废纸?AI暴击美国00后!他哥大退学成千万富翁,我却还要还学贷
摊牌了,不装了,美国的Z时代已经对上大学彻底不耐烦了。 现在,他们喊出这样的宣言:有了ChatGPT,大学文凭已经彻底成了一张废纸! 纯粹就是浪费时间和金钱。
4/24/2025 9:14:00 AM
新智元
礼貌寒暄推高AI问答成本!OpenAI每年为此多花数千万美元?
近日,美国科技公司OpenAI的首席执行官萨姆·奥尔特曼在社交平台上透露了一个令人意外的现象:用户在与ChatGPT互动时频繁使用“请”“谢谢”等礼貌用语,这一行为竟然导致公司每年需额外承担数千万美元的运营成本。 这一消息引发了广泛讨论,人们不禁好奇,为何简单的礼貌寒暄会带来如此高昂的成本? 礼貌寒暄背后的成本根据《今日美国》及美国《石英》杂志的报道,当用户在ChatGPT的用户界面说“谢谢”时,大模型会按照算法回复“不客气”。
4/24/2025 9:11:09 AM
小菲
理解 RAG 第三部分:融合检索与重新排序
我们之前介绍了什么是 RAG、它在大型语言模型 (LLM) 中的重要性,以及 RAG 的经典检索器、生成器系统是什么样的,本系列的第三篇文章探讨了一种构建 RAG 系统的升级方法:融合检索。 在深入探讨之前,值得简要回顾一下我们在本系列第二部分中探讨过的基本 RAG 方案。 融合检索解析融合检索方法涉及在检索增强生成(RAG)系统的检索阶段中融合或聚合多个信息流。
4/24/2025 9:04:42 AM
晓晓
几行代码,一窥上帝造物!帝国理工开源CAX,引爆人工生命新纪元
人工生命研究的新纪元! 「人工生命」(artificial life,或简写为ALife),旨在模拟生命的行为、特性和演化过程,理解生命的本质,涉及涌现现象、自组织系统或形态发生机制。 人工生命(ALife)的研究中,蕴含着能够推动和加速AI进步的重要启发和灵感。
4/24/2025 9:03:00 AM
新智元
从入门到精通:如何在React中构建人工智能驱动的梗图生成器
译者 | 李睿审校 | 重楼为什么要构建人工智能梗图生成器? 梗图(Meme)堪称互联网时代的“全民语言”。 无论是想调侃朋友,还是想表达编程让人崩溃的无奈,梗图总能精准地表达其意境。
4/24/2025 8:39:17 AM
李睿
OpenAI 新模型 GPT-4.1 可靠性遭质疑:独立测试显示其对齐性下降
IT之家 4 月 24 日消息,本月早些时候 OpenAI 推出了 GPT-4.1 人工智能模型,并声称该模型在遵循指令方面表现出色。 然而,多项独立测试的结果却显示,与 OpenAI 以往发布的模型相比,GPT-4.1 的对齐性(即可靠性)似乎有所下降。 据IT之家了解,通常情况下,OpenAI 在推出新模型时,会发布一份详细的技术报告,其中包含第一方和第三方的安全评估结果。
4/24/2025 8:29:59 AM
远洋
全网首曝!用 C# 调用本地大模型:Llama3 中文对话实战
在人工智能蓬勃发展的当下,大模型技术已成为众多领域的核心驱动力。 Llama3作为Meta开发并公开发布的最新大型语言模型(LLMs),凭借其卓越的性能和丰富的功能,备受开发者关注。 以往,调用大模型往往依赖云端服务,面临着网络延迟、数据隐私等诸多问题。
4/24/2025 8:20:00 AM
后端Q
Seedream 3.0 文生图模型技术报告发布
字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,对比 Seedream 2.0,这一版本的整体性能表现有较大提升,尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。 具体亮点如下:原生 2K 直出,适配多比例场景:无需后处理可直接输出 2K 分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足;3 秒出图,大幅提升创作效率:面向海报设计、视觉创意等需求,可实现 3 秒左右快速生成高品质图像,实现“所想即所得”的实时创意交互;小字更准,文本排版效果增强:优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力;美感&结构提升,生成富有感染力:指令遵循进一步增强,人体和物体结构崩坏改善,且进一步弱化了出图的 AI 感,实现从“看得清”到“有感染力”的审美提升。
4/24/2025 6:02:45 AM
豆包大模型团队
理解 RAG 第二部分:经典 RAG 的工作原理
在本系列的第一篇文章中,我们介绍了检索增强生成 (RAG) ,并解释了扩展传统大型语言模型 (LLM)功能的必要性。 我们还简要概述了 RAG 的核心思想:从外部知识库中检索上下文相关的信息,以确保 LLM 生成准确且最新的信息,而不会产生幻觉,也无需不断地重新训练模型。 本系列的第二篇文章将揭秘传统 RAG 系统运行的机制。
4/24/2025 1:10:00 AM
晓晓
你的数据有多好,你的模型就有多强
在AI大战烽火连天的今天,所有人都在追逐参数规模的增长和架构的优化。 然而,行业内的一个秘密正在悄然成形:拥有独特数据资产的企业正在构筑起难以逾越的竞争壁垒。 数据,而非算法,正成为区分强弱的决定性要素。
4/24/2025 12:40:00 AM
大数据AI智能圈
理解 RAG 第一部分:为什么需要它
自然语言处理(NLP) 是人工智能(AI)的一个领域,旨在教会计算机理解人类的书面和口头语言,并运用这些语言与人类互动。 虽然传统的 NLP 方法已研究数十年,但近年来出现的大型语言模型(LLM) 几乎主导了该领域的所有发展。 LLM 通过将复杂的深度学习架构与能够分析语言中复杂模式和相互依赖关系的自注意力机制相结合,彻底改变了 NLP 和整个人工智能领域。
4/24/2025 12:10:00 AM
晓晓
聊聊SpringAI流式输出的底层实现?
在 Spring AI 中,流式输出(Streaming Output)是一种逐步返回 AI 模型生成结果的技术,允许服务器将响应内容分批次实时传输给客户端,而不是等待全部内容生成完毕后再一次性返回。 这种机制能显著提升用户体验,尤其适用于大模型响应较慢的场景(如生成长文本或复杂推理结果)。 技术实现在 Spring AI 中流式输出的实现有以下两种方式:通过 ChatModel 实现流式输出。
4/24/2025 12:00:00 AM
磊哥
Mobileye首秀上海车展,按下辅助驾驶平权“加速键”
中国上海,2025年4月23日. ——Mobileye于今日亮相上海车展,通过展示其基于复合人工智能系统(CAIS)的全面驾驶自动化解决方案,以及开展高速和城区领航辅助驾驶(NOA)体验活动,充分彰显了其技术路线规划的前瞻思维和商业化量产落地的出色成果。 在本届上海车展上,Mobileye带来了涵盖其从基础驾驶辅助至面向未来“出行即服务”的全系列驾驶自动化系统,包括:ADAS(辅助驾驶系统):包括基础ADAS方案和云增强ADAS方案;Mobileye环绕式ADAS™:一套能够在其设计运行范围(ODD)内提升安全和舒适性体验,同时也充分契合组合辅助驾驶功能全面普及趋势的全新中阶方案;Mobileye SuperVision™:在特定ODD内的“驾驶员运动脱离/需注视”的驾驶辅助平台;Mobileye Chauffeur™:面向消费级车辆,在特定ODD内的有条件“驾驶员视觉脱离”的驾驶自动化系统;Mobileye Drive™:应用于未来“出行即服务”的驾驶自动化系统。
4/23/2025 8:29:59 PM
仅用3周时间,就打造出Manus开源平替!贡献源代码,免费用
可以对标 Manus 的智能体 Suna 来了! (有没有发现它是 manus 倒过来写)这款智能体由 Kortix AI 团队打造,开源并且完全免费。 具体而言,Suna 是一个完全开源的 AI 助手,旨在帮助用户轻松完成现实世界中的各种任务。
4/23/2025 5:22:59 PM
机器之心
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。 然而,这些推理模型的核心训练方法在其技术报告中仍然鲜有披露。 近期社区的主要工作也仅局限于数学推理领域,使得跨领域泛化这一挑战依然未得到充分探索。
4/23/2025 3:23:25 PM
机器之心
百度心响App悄然上线,30天极速开发,开启AI“现货”革命
在人工智能领域,一场关于未来交互模式的革命正悄然酝酿。 近日,百度心响APP在各大安卓市场上线,这款定位为“通用超级智能体”的产品,凭借通用化定位与开放生态设计引发关注,并计划于4月25日百度Create 2025开发者大会正式亮相。 令人意外的是,这一产品由几十人组成的95后年轻团队在短短30天内开发完成,以“现货”姿态打破行业“期货”惯例,展现出百度在AI应用落地方面高效务实的推进能力。
4/23/2025 3:10:24 PM
鸢玮
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型