AI模型
阿里巴巴推出新款 Qwen 模型,三秒音频即可克隆声音
近日,阿里巴巴云计算的 Qwen 团队发布了两款全新的人工智能模型,旨在通过文本指令生成或克隆声音。 其中,Qwen3-TTS-VD-Flash 模型允许用户根据详细描述生成声音,用户可以精确定义声音的特征,如情感和说话节奏。 例如,用户可以请求生成一个 “中年男性,洪亮的男中音 —— 充满活力的广告解说,快速的语速,夸张的音调变化,充满销售魅力的声音”。
MiniMax 更新 M2.1 模型,重点聚焦于更多编程语言和办公场景的可用性
AI在线 12 月 24 日消息,MiniMax 昨日宣布为其 MiniMax M2 开源模型推出 M2.1 版本更新。 此次更新致力于提升真实世界复杂任务中的表现:重点聚焦于更多编程语言和办公场景的可用性。 MiniMax-M2.1 的具体亮点如下:系统性提升了 Rust / Java / Golang / C / Kotlin / Objective-C / TypeScript / JavaScript 等非 Python 语言的能力;显著加强了原生 Android / iOS 开发能力,系统性提升了模型在 Web 与 App 场景中的设计理解与美学表达能力;系统性问题解决能力再次升级,关注对“复合指令约束”的整合执行能力,在真实办公场景具备更高的可用性;模型回复以及思维链更加简洁,在实际编程与交互体验中响应速度显著提升、Token 消耗明显下降;在各类编程工具与 Agent(智能体 / 代理)框架中均有出色表现;在日常对话、技术说明与写作场景中,也能提供更具细节与结构性的回答。
亚马逊 AGI 部门换帅:云业务老将接棒,力求终结 AI “落后局势”
面对微软、谷歌及 OpenAI 等对手的步步紧逼,全球电商与云巨头亚马逊正试图通过一场高层地震来扭转其在 AI 赛道的被动局面。 AIbase 获悉,亚马逊首席执行官安迪·贾西(Andy Jassy)近日宣布,公司AGI(通用人工智能)部门负责人罗希特·普拉萨德(Rohit Prasad)将于明年离职,由 AWS 高级副总裁彼得·德桑蒂斯(Peter DeSantis)接过帅印。 德桑蒂斯是亚马逊效力超过30年的元老级人物,他将领导一个全新的扩权部门。
机器人界的GitHub诞生!Tnkr平台上线,让造机器人像写代码一样简单
在物理智能加速落地的2025年,一个被称作“机器人GitHub”的开源平台——Tnkr——正式登场,试图终结机器人研发长期存在的碎片化困局。 该平台首次将硬件、软件、数据与AI模型四大核心要素整合于统一开源生态,让开发者能像协作写代码一样,共建、共享、共优实体机器人项目。 传统机器人开发如同“拼图游戏”:工程师需在CAD软件、代码编辑器、数据采集工具和AI训练平台之间反复切换,项目文档散落各处,复现难度极高。
谷歌搜索测试“+”按钮:允许用户上传图片文档,利用 Gemini AI 进行深度分析
谷歌搜索中近日新增了一个神秘的**“ ”按钮**,允许用户上传图片和文档,从而利用谷歌的 Gemini AI 模型进行深度分析。 尽管谷歌尚未发布官方博文,表明该功能可能仍处于实验阶段,仅对部分用户开放。 用户只需上传图片或文档,即可启用 Google AI 模式。
谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战
近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。 该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。 图源备注:图片由AI生成,图片授权服务商MidjourneyFACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。
美国监狱电话隐私大曝光:囚犯通话竟成 AI 训练材料
近年来,美国一家名为 Securus Technologies 的电信公司,秘密地利用监狱内囚犯的电话和视频通话记录,构建其专有的人工智能模型。 根据《麻省理工科技评论》的报道,Securus 自2023年起开始开发其 AI 产品,而其收集的通话数据则早在更早的时间就已积累。 这些数据来源于各类监狱,从地方监狱到长期监禁的监狱,甚至包括移民和海关执法局的拘留中心。
想让AI帮你做用户研究?这两大场景超实用!
数字化时代,用户研究正迎来前所未有的机遇与挑战。 每天涌进来的海量用户反馈、访谈记录和评论,是蕴藏需求的“宝藏信息库”,可传统分析方法很难扛住这份“信息量”。 今天就聊聊AI大语言模型在用户研究里的实际用法,重点说短文本反馈分类、长文本分析洞察这两个核心场景,帮用户研究人员省出更多时间做关键决策。
OpenAI 宣布将停止 GPT-4o 模型 API 访问,开发者需尽快迁移
OpenAI 近期向其 API 客户发布通知,确认将于 2026 年 2 月 16 日正式停止对 chatgpt-4o-latest 模型的访问。 这一决定意味着仍在使用 GPT-4o 开发应用的开发者们仅剩下大约三个月的过渡期来调整他们的项目。 OpenAI 发言人指出,此次 API 访问的终止仅适用于 GPT-4o 模型,而该模型仍然作为 ChatGPT 个人用户和付费用户的重要选项。
Gemini 3重磅发布,我连夜整理了3大核心亮点与5种免费用方法!
这两天AI界最炸裂的消息,就是Gemini 3 发布了! 我连夜整理了3大核心亮点与5种免费用的方法,赶紧收藏起来吧~. 深度测评:一、3大核心亮点.
断档式领先!2025年最强模型 Gemini 3 Pro 实测
等了很久、很久、很久。 也期待了很久、很久、很久的Gemini 3 Pro,终于在昨天晚上,正式上线了。 往期回顾:之前回回都有新消息,回回都是误传。
OpenAI 财务泄露:巨额开销压制盈利前景
根据 Techcrunch 和博主 Ed Zitron 的报道,最近泄露的内部文件揭示了 OpenAI 与微软之间资金流动的情况。 这些文件显示,OpenAI 的模型运行成本极其高昂,按照这些数字,盈利的目标似乎仍遥不可及。 根据 Zitron 的说法,OpenAI 在2024年向微软支付了约4.938亿美元,作为20% 的收入分成。
李彦宏:AI 的内化将重塑生产力
在2025年百度世界大会上,百度创始人李彦宏发表了主题为《效果涌现》的演讲,强调当 AI 能力被内化后,智能不再是成本,而是推动生产力的关键力量。 李彦宏指出,目前 AI 产业结构正在经历从 “正金字塔” 向 “倒金字塔” 的转变,这种变化将使得 AI 模型和应用的价值大幅提升。 李彦宏表示,传统的 AI 产业结构使底层芯片获得了绝大部分的价值,而模型和应用的价值则相对较小,形成了不健康的局面。
Paytm 与 Groq 合作,推动高性能 AI 模型发展
印度支付巨头 Paytm 近日宣布与美国硬件公司 Groq 达成合作,将利用 GroqCloud 服务来提升其人工智能(AI)模型的性能。 此举旨在改进交易处理、风险评估、欺诈检测以及消费者互动,进一步增强其平台的智能化水平。 GroqCloud 是 Groq 为开发者和企业提供的云端服务,专门用于 AI 推理,即从训练好的模型中获取输出和洞见。
专家揭示数百项 AI 安全测试存在严重缺陷
根据最新报道,来自英国政府 AI 安全研究所和多所知名大学的计算机科学家们发现,当前用于评估新一代人工智能(AI)模型安全性和有效性的测试存在广泛的缺陷。 这项研究分析了超过440个基准测试,发现几乎所有的测试在某个方面都有弱点,这些弱点可能会影响到最终结论的有效性。 图源备注:图片由AI生成研究的主要作者、牛津互联网研究所的研究员安德鲁・比恩(Andrew Bean)表示,这些基准测试是检查新发布 AI 模型安全性和是否符合人类利益的重要工具。
AI 模型用两本书生成名家风格作品,引发版权法新讨论
一项新研究显示,AI 模型经过仅两本书的微调训练后,可以生成著名作家的写作风格,且读者对这些作品的偏好甚至超过了专业模仿者。 此项研究由圣 ony Brook 大学和哥伦比亚法学院的研究团队进行,涉及了50位知名作家的风格创作,包括诺贝尔奖得主韩江和布克奖得主萨尔曼・鲁西迪。 在研究中,159名参与者,包括28名写作专家和131名非专家,通过众包平台 Prolific 评判了不同文本段落。
零一万物宣布高管任命 联合创始人沈鹏飞领衔 加速ToB/ToG“一把手工程”
零一万物今日宣布新一轮核心高管任命,旨在全面升级其ToB业务体系,加速商业化进程。 此次调整确立了以“一把手工程”为核心战略,构建覆盖市场销售、模型技术、国际咨询的全链路发展格局。 核心任命:三位高管构建全链路格局联合创始人 沈鹏飞: 统筹公司国内ToB和ToG(对政府)业务拓展与销售体系。
多模态人工智能初创公司 Fal.ai 的估值已超过 40 亿美元 半年内价值翻三倍
为开发者提供图像、视频和音频 AI 模型的初创公司 Fal.ai 近日完成新一轮融资,估值已突破 40亿美元,据两位知情人士透露,本轮融资规模约为 2.5亿美元。 知情人士指出,本轮融资的主要投资者是著名的风险投资机构 **凯鹏华盈(Kleiner Perkins)**和 红杉资本(Sequoia Capital)。 不过,Fal 官方尚未对此置评,红杉资本和凯鹏华盈也拒绝置评。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉