资讯列表
实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!
最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线
阿里通义Qwen3语言模型上线 ,开源实力再升级!
在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线
月之暗面 Kimi 长思考模型 API 正式发布
月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线
IBM 首席执行官进军人工智能市场并加大美国投资
在最近的一次采访中,IBM 首席执行官阿尔温德・克里希纳(Arvind Krishna)表示,随着人工智能(AI)市场竞争的加剧,IBM 正计划通过提供能够整合客户使用的不同 AI 代理的工具,来提升其在该领域的销售。 这些工具将帮助客户管理他们在关键业务应用中的一系列 AI 代理,主要包括 Salesforce、Workday 和 Adobe 等公司的产品。 克里希纳指出,IBM 将助力客户构建适合未开发用例的 AI 代理,客户只需在五分钟内完成创建。
5/6/2025 6:00:51 PM
AI在线
Kimi 长思考模型 API 发布
kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型,它擅长深度推理。
5/6/2025 5:59:23 PM
汪淼
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
初创公司Recraft宣布完成3000万美元B轮融资,其图像生成模型“red_panda”在基准测试中超越DALL-E和Midjourney,成为行业焦点。该模型在品牌图像生成方面表现突出,精准放置品牌标识,无需额外编辑。#AI图像生成##Recraft融资#
5/6/2025 5:42:18 PM
远洋
深度监督网络作者谢赛宁被拒稿 11 年后翻盘获时间检验奖:拒稿≠学术死刑
谢赛宁十年前被 NeurIPS(当时还叫 NIPS)拒收的论文,刚在今年获得了 AISTATS 2025 年度时间检验奖。这篇论文就是《Deeply-Supervised Nets》(DSN,深度监督网络),2014 年 9 月挂上 arXiv。
5/6/2025 5:22:13 PM
汪淼
超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
超越 DeepSeek-R1 的英伟达开源新王 Llama-Nemotron,是怎么训练出来的?刚刚放出的论文,把一切细节毫无保留地全部揭秘了!
5/6/2025 5:06:46 PM
汪淼
音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲
ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线
腾讯元宝上线「对话分组」:全平台同步 完全免费、不限次数
腾讯元宝宣布上线了一项新功能——「对话分组」。 这一功能的推出旨在帮助用户更好地管理和组织与元宝的聊天记录,使不同的对话能够根据项目、主题或任务进行分类,从而提升用户的使用体验。 「对话分组」功能允许用户为与元宝的聊天创建文件夹,就像在电脑上整理文件一样。
5/6/2025 5:00:41 PM
AI在线
通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!
出品 | 51CTO技术栈(微信号:blog51cto)北京时间5月6日,据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(title中不是阿里集团副总裁,所以职级应该为P10)已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 最早爆料该消息的公众号之一“互联网八卦小喇叭”发文表示:据可靠消息称:“薄老师于本月离职通义,即将进入某大厂担任多模态模型负责人”。
5/6/2025 4:03:20 PM
Perplexity AI 推出全新 Comet 浏览器,挑战 Chrome 霸主地位
近日,Perplexity AI 宣布将在本月推出其新款 AI 驱动的 Comet 浏览器,标志着互联网浏览器市场的一场变革。 作为一种新兴的浏览器,Comet 旨在成为 Google Chrome 的有力竞争者,特别是在信息检索和用户体验方面。 图源备注:图片由AI生成,图片授权服务商MidjourneyComet 浏览器的构想早有端倪,近期用户发现 Perplexity 官网上新增了一个 “Learn Comet” 按钮,此外还曾短暂公开过一段宣传视频。
5/6/2025 4:01:02 PM
AI在线
商汤科技携手中移动香港与香港中文大学法学院 开展视觉 AI 与大模型领域合作
近日,商汤科技在香港与中国移动香港有限公司及香港中文大学法学院签署了合作备忘录,正式启动在视觉人工智能(AI)与大模型技术等领域的深入合作。 这一合作旨在利用三方的优势,共同推动科技的创新与应用,助力香港及中国的科技发展。 商汤科技作为一家领先的人工智能企业,在视觉 AI 领域具有丰富的经验和技术积累。
5/6/2025 4:01:02 PM
AI在线
马斯克决定继续对 OpenAI 提起诉讼,关注焦点转向新计划
美国亿万富翁埃隆・马斯克近日表示,他将继续对 OpenAI 提起诉讼,尽管这家人工智能初创公司刚刚宣布放弃转变为营利性公司的计划。 这场法律争斗的背景相当复杂,而最近的动向更是为其增添了新的戏剧性。 马斯克是 OpenAI 的联合创始人之一,他对 OpenAI 的转变一直持有异议。
5/6/2025 4:01:01 PM
AI在线
医疗自诊依赖 AI 聊天机器人存风险,专家呼吁谨慎使用
牛津大学研究发现,人们使用聊天机器人获取健康建议时,往往难以提供关键信息,导致建议质量不佳。研究显示,聊天机器人不仅增加识别健康问题的难度,还可能低估问题严重性。#AI医疗##健康科技#
5/6/2025 3:52:16 PM
远洋
OpenAI转型计划遇阻:继续由非营利实体控制,重组方案被迫调整
当地时间5月5日,人工智能研究公司OpenAI宣布,其转型计划遭遇重大调整,将继续由其非营利性母公司控制,同时推进营利性部门的结构调整,以在激烈的AI竞赛中筹集更多资金并保持领先地位。 去年12月,OpenAI公布了一项重组计划,拟转型为一家公益企业(Public Benefit Corporation,简称PBC),称这将有助于吸引更多投资,并摆脱现行非营利架构带来的限制。 然而,这一计划却遭到了外界的猛烈批评及法律挑战,甚至引发了世界首富埃隆·马斯克的诉讼。
5/6/2025 3:48:25 PM
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。
5/6/2025 3:32:23 PM
AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品
近年来,机器人取得了显著进展,能表演杂技、跳舞、听从指令,甚至完成叠衣服、擦桌子等复杂任务。 但机器人面临的最大挑战并非灵活性,而是泛化能力——在新环境中正确完成任务的能力。 想象一个你家中的清洁机器人:每个家庭布局不同,物品摆放各异,机器人必须在多个层面上实现泛化。
5/6/2025 3:31:55 PM
新智元