资讯列表
谷歌推出 LMEval:统一评估大语言与多模态模型的新工具
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。 该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。 以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。
5/27/2025 10:01:25 AM
AI在线
OpenAI:部分ChatGPT用户无法访问订阅,已实施修复措施
OpenAI公司5月27日发布消息称,部分ChatGPT用户无法访问订阅,公司已实施修复措施,并正在积极监控情况,以确保不会再发生订阅错误。 此外,公司还在继续处理之前受影响的客户名单,以完全恢复所有受影响客户的访问权限。
5/27/2025 10:01:25 AM
AI在线
最新研究揭示:AI 聊天机器人尚未显著改变工资和工作时间
根据美国国家经济研究局的一项新研究,尽管 AI 聊天机器人如 ChatGPT 在职场的迅速普及,其对员工工资和工作时间的影响至今仍然微乎其微。 该研究对2023年和2024年间来自7000个工作场所的约25000名丹麦员工进行了调查,聚焦于包括会计、客户服务、金融咨询、IT 支持、新闻、法律、市场营销、软件开发和教学在内的11种职业。 图源备注:图片由AI生成,图片授权服务商Midjourney研究人员通过将员工自报的数据与政府记录的工资、工作时间和就业状态进行关联,来进行分析。
5/27/2025 10:01:24 AM
AI在线
全球首例!阿联酋全民免费使用ChatGPT Plus,AI国际化战略重大里程碑
阿联酋即将创造历史,成为全球首个向全体居民免费提供ChatGPT Plus高级版服务的国家。 这一突破性举措源于OpenAI与阿联酋政府达成的重要战略合作,标志着人工智能普及化迈出关键一步。 "星际之门阿联酋"超级数据中心此次合作的核心项目是在阿布扎比建设名为"星际之门阿联酋"的大型AI数据中心。
5/27/2025 10:01:24 AM
AI在线
阿里巴巴发布 QwenLong-L1-32B:长上下文推理模型震撼登场,性能逼近 Claude-3.7
近日,阿里巴巴正式发布全新 AI 模型 QwenLong-L1-32B,一款基于强化学习(RL)优化的长上下文推理模型,标志着阿里巴巴在人工智能领域的又一重大突破。 该模型以其超长的上下文处理能力和卓越的推理性能,迅速成为业界关注的焦点。 以下是 AIbase 整理的最新资讯,带您一探这款划时代模型的全貌。
5/27/2025 10:01:21 AM
AI在线
阿里妈妈推出URM大模型,引领广告智能化新潮流
近日,在 TongAI 大会上,阿里妈妈正式发布了 URM 通用召回大模型。 这一全新的技术成果,结合了深度学习与大数据分析能力,旨在提升电商广告的智能投放效果。 URM 大模型不仅能够精准解析消费者的行为和兴趣偏好,还能有效提高广告投资回报率(ROI),标志着阿里妈妈在生成式推荐领域的首次技术落地,为广告行业的智能化转型注入了新的动力。
5/27/2025 10:01:20 AM
AI在线
开创性扩散思维链:让人工智能更具创造力和灵活性
在近年来的人工智能研究中,思维链的概念越来越受到重视,尤其是在大型语言模型的训练和推理中。 最近,西湖大学 MAPLE 实验室的齐国君教授团队首次提出了一种新颖的 “扩散式发散思维链”,这是一种为扩散语言模型量身定制的全新推理方式。 传统的大型语言模型通常采用线性思维链,即通过逐步推理生成答案。
5/27/2025 10:01:20 AM
AI在线
搜狗输入法推出AI汪仔“快捷搜索”功能:接入混元快思考模型Turbo S
近日,搜狗输入法Windows版迎来重大升级,全新推出AI汪仔“快捷搜索”功能,为用户带来了更高效便捷的办公学习体验。 AI汪仔“快捷搜索”功能具有一键触发、快速响应的特点。 用户无需再遵循“打开浏览器👉🏻搜索引擎👉🏻输入内容”的传统搜索三步曲,只需在桌面任意地方直接打字,或者使用快捷键“Ctrl Shift 空格”,就能在0.5秒内召唤出全能“快捷搜索”功能,信息获取速度相比传统方式提升了300%。
5/27/2025 10:01:20 AM
AI在线
前Meta高管克莱格放话:要求AI训练征求艺术家同意将"根本性扼杀"英国AI产业
英国人工智能监管政策制定正值关键时刻,前副首相、前Meta高管尼克·克莱格的最新表态引发广泛争议。 他声称,强制要求AI公司在使用艺术家作品训练模型前征求同意,将"从根本上扼杀"英国AI产业。 克莱格的"不可行"论调在新书推广活动中,克莱格承认创意社区应有权选择不将其作品用于AI模型训练,但坚持认为事先征求同意在实际操作中不可行。
5/27/2025 10:01:20 AM
AI在线
谷歌Chrome浏览器新增Gemini AI助手,实时屏幕感知能力引关注
谷歌最近在其 Chrome 浏览器中推出了全新的 Gemini 人工智能助手,这一功能为用户带来了革命性的体验。 新助手能够实时感知屏幕内容,令用户的浏览体验更加智能化。 目前,这一功能仅向 AI Pro 和 AI Ultra 订阅用户开放,且目前处于 Chrome 测试版阶段。
5/27/2025 10:01:20 AM
AI在线
秘塔AI搜索推出全新“极速”模型:最高400 tokens/秒响应速度
近日,秘塔AI搜索正式推出全新“极速”模型,为用户带来更高效、精准的搜索体验。 秘塔AI搜索团队通过在GPU上进行kernel fusion技术,以及在CPU上实施动态编译优化策略,成功在单张H800GPU上实现了最高400tokens/秒的响应速度,大部分问题能在2秒内给出答案。 为了让用户更真切地感受新模型的速度,秘塔AI搜索还特别搭建了一个测速站点(kuai.metaso.cn),用户可随时输入问题,亲自体验新模型带来的快速响应。
5/27/2025 10:01:20 AM
AI在线
阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7
阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。 该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。 技术创新亮点QwenLong-L1-32B最大的技术突破在于其是全球首个通过强化学习训练的长文本情境推理模型。
5/27/2025 10:01:20 AM
AI在线
中国信通院发布软件开发智能体标准
最近,中国信息通信研究院(信通院)牵头联合腾讯、阿里、华为等二十余家知名企业,共同发布了《面向软件工程智能体的技术和应用要求 第1部分:开发智能体》。 这一标准的发布,标志着 AI 智能体的研发与应用进入了一个全新的阶段。 图源备注:图片由AI生成,图片授权服务商Midjourney新标准围绕技术能力和服务能力两个方面,对开发智能体的能力建设和应用要求进行了详细阐述。
5/27/2025 9:00:50 AM
AI在线
苹果设计大师艾维因 OpenAI 收购获巨额财富,或成亿万富翁
据《福布斯》报道,苹果传奇设计师乔纳森・艾维(Jonathan Ive)因其创办的人工智能硬件公司 io 被 OpenAI 收购,获得了价值7.15亿美元的股票。 这一交易预计将使艾维的净资产在未来几年突破10亿美元,可能让他跻身亿万富翁行列。 图源备注:图片由AI生成,图片授权服务商MidjourneyOpenAI 在上周宣布,将通过全股票交易的方式收购艾维的公司 io,交易的估值达65亿美元。
5/27/2025 9:00:50 AM
AI在线
苹果设计师乔纳森・艾维因 OpenAI 收购一夜暴富,净资产或破十亿
在科技界,乔纳森・艾维(Jonathan Ive)这个名字可谓家喻户晓,作为 iPhone 的设计师,他在苹果公司的贡献不言而喻。 近日,《福布斯》报道揭示,艾维因其 AI 硬件公司 io 被 OpenAI 收购,净资产有望突破十亿美元,成功跻身亿万富豪的行列。 上周,OpenAI 宣布以全股票交易的方式收购艾维创办的公司 io,交易的估值高达65亿美元。
5/27/2025 9:00:50 AM
AI在线
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM
红杉中国xbench全球首发,AI智能体真实战力揭榜!
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
5/27/2025 8:50:00 AM
刚刚,北大校友Lilian Weng自曝公司首个产品?一篇论文未发,估值却已90亿
OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng,刚刚转发了一个神秘产品——一个看似仪表盘的东西。 或许,这就将是公司即将打造的第一个爆品? 这个产品所揭示的理念,可谓十分惊人——在训练过程中,研究人员可以直接用它来手动调整所有的超参数了!
5/27/2025 8:40:00 AM