资讯列表
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o
在AI领域,参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。 这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
Llama 论文作者“出逃”,14人团队仅剩3人,法国独角兽 Mistral 成最大赢家
他们大多去向了 Mistral,这家总部位于巴黎的 AI 初创公司,正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品:在 ChatGPT 和 PaLM 占据主流话语权的 2023 年,Meta 用一篇重量级论文和一组开放权重的大语言模型,意外地把开源阵营推上主舞台。 而那时,Meta 的 AI 科研团队 FAIR(Fundamental AI Research)也正处于高光时刻。
Dify携手亚马逊云科技 加速全球企业生成式AI应用规模化落地
简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成式AI技术与云服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式AI应用开发中的技术门槛和部署成本。 此外,依托亚马逊云科技遍布全球的基础设施与亚马逊云科技Marketplace,Dify将产品迅速推广至全球,为汽车、制造、零售快消、医疗健康和游戏等多个行业逾百家企业提供服务,助力企业释放生成式AI创新潜力的同时,实现商业价值增长。 Dify是一款发布于 2023 年的大语言模型应用开发平台,涵盖从Agent构建到AI Workflow编排、RAG检索、模型管理等核心技术栈,助力开发者快速实现AI应用落地。
OpenAI 首款 AI 硬件被曝 2026 年登场,ChatGPT 全面融入用户生活
科技媒体 bleepingcomputer 今天(5 月 27 日)发布博文,报道称 OpenAI 公司计划 2026 年发布一款由 ChatGPT 驱动的新产品,希望让 ChatGPT 成为用户生活中无处不在的助手。
AI数字人助力PPT展示,SlidesOrator在BEYOND Expo崭露头角
在近日举行的 BEYOND Expo 展会上,SlidesOrator 项目引起了与会者的广泛关注。 这一新颖的工具不需要高端的机械设备或虚拟现实眼镜,展台简约却不失亮点,直接聚焦于每一位职场人士都能感同身受的一个核心问题:如何更好地展示 PPT。 SlidesOrator 的理念与其功能紧密相连,它的目标不仅是帮助用户快速制作 PPT,更在于通过 AI 技术将演讲变得 “自动而可信”。
国内首个!夸克健康大模型成功通过副主任医师考试
夸克健康大模型在全国副主任医师职称考试中表现出色,成功通过12门学科的评测,成为国内首个跨越这一门槛的大模型。 此次考试涵盖了全科医学、普通内科学、普通外科学、妇产科学、小儿内科学、肿瘤内科学、口腔医学、耳鼻咽喉科学、眼科学、皮肤与性病学、精神病学和麻醉学等12个常用学科。 夸克健康大模型在所有测试科目中均超过了合格线,并在全科医学、肿瘤内科学、皮肤与性病学、精神病学等四个学科达到了主任医师的及格线。
百度心响 iOS 版正式上线,智能体应用实现全面覆盖
最近,百度心响 iOS 版正式上线,这款多智能体协作应用的发布,标志着智能体应用的普及进入了一个全新阶段。 用户只需在苹果的 APP Store 中搜索 “心响” 即可免费下载,安卓用户也能自由使用,让所有人都可以轻松体验到这款应用的便捷。 心响 APP 的使用门槛非常低,无需邀请码且每日使用次数不限,这一点在智能体应用中相对少见。
Chrome v137 开发者工具重磅升级 Gemini 智能标注让性能分析秒变神器!
Google 近日发布了 Chrome v137开发者工具(Chrome DevTools)的重大更新,集成了 Gemini AI 智能助手,为开发者带来前所未有的性能分析和调试体验。 从智能标注性能追踪到 CSS 修改保存,Chrome v137的新功能极大提升了开发效率。 AIbase 综合整理最新信息,为您详细解析此次更新的亮点与应用前景。
国内首创!夸克健康大模型通过12门副主任医师职称考试,4个学科达主任医师水平
夸克健康大模型近日创造了国内AI医疗领域的重要里程碑,在12门国家副主任医师职称考试中成绩全部超过合格线,成为国内首个成功跨越这一专业门槛的大模型。 这一突破标志着AI在医疗专业能力方面达到了新的高度,目前用户已可通过夸克搜索直接调用这一全新的大模型能力。 技术架构与创新突破夸克健康大模型以阿里巴巴的通义千问为技术基础,通过海量高质量数据构建和多阶段后训练策略实现了关键性突破。
夸克发布行业首个“高考深度搜索”,一句话生成志愿填报方案
“河南郑州二模549分,历史类,一本线517分,推荐一下应该怎么报考”。 高考临近,这类问题成为考生和家长搜索查询的典型方式。 试着把这个问题丢给传统搜索引擎,结果前排是广告,后面是匹配不准确的网页链接。
谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒,降低评测成本和时间
谷歌推出开源框架LMEval,为大语言模型和多模态模型提供标准化评测工具。该框架支持文本、图像和代码等领域的基准测试,简化跨平台比较,还具备增量评估和可视化功能。#AI评测# #谷歌开源#
全球首个:OpenAI 免除 20 美元月费,阿联酋全民免费用 ChatGPT Plus 订阅
科技媒体 Axios 于 5 月 25 日报道称,阿拉伯联合酋长国(UAE)将成为全球首个为全体公民(citizens)和居民(residents)免费提供 ChatGPT Plus 服务的国家。
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。
我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编
中国信息通信研究院联合中国工商银行、百度、腾讯、阿里、华为等二十余家头部企业,正式发布《面向软件工程智能体的技术和应用要求第 1 部分:开发智能体》(标准编号 AIIA / T 0219-2025)。
红帽联手谷歌、NVIDIA启动llm-d开源项目,破解大规模AI推理成本与延迟双重难题
全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d,专门应对生成式AI大规模推理的迫切需求。 该项目汇聚了CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头作为创始贡献者,旨在通过突破性技术让大语言模型推理云满足最严苛的生产服务级目标。 推理时代来临,挑战日益严峻根据Gartner最新数据预测,"到2028年,随着市场成熟,80%以上的数据中心工作负载加速器将专门部署用于推理,而非训练用途。