资讯列表
Anthropic 发布专为国家安全定制的 AI 模型,获亚马逊和谷歌支持
人工智能公司 Anthropic 推出了一款专为美国国家安全机构设计的 AI 模型套件,名为 Claude Gov。 这一产品已经得到了亚马逊和谷歌的战略支持,现阶段仅向持有最高安全许可的机构开放使用。 Claude Gov 模型套件是根据国防和情报部门的具体需求开发而成的。
通义千问正式发布Qwen3-Embedding系列模型
近日,通义千问官方正式发布了Qwen3-Embedding系列模型,作为Qwen模型家族的新成员,该系列模型专为文本表征、检索与排序任务而设计。 Qwen3-Embedding系列基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力上的显著优势。 该系列模型在多项基准测试中表现出色,特别是在文本表征和排序任务中展现了卓越性能。
Anthropic谈为何切断 Windsurf 访问自家 AI 模型:聚焦长期合作客户
近日,Anthropic 的联合创始人兼首席科学官贾里德・卡普兰(Jared Kaplan)在接受外媒 TechCrunch 采访时,透露了公司决定限制 Windsurf 访问其 Claude AI 模型的原因。 此举是在有关 OpenAI 计划以30亿美元收购 Windsurf 的传闻传出后做出的,卡普兰表示:“我们的真正目标是为那些能够长期与我们合作的客户提供支持,而不是让短期客户享受我们的服务。 ”卡普兰进一步说明,Anthropic 已经切断了 Windsurf 对其 Claude3.5Sonnet 和 Claude3.7Sonnet 这两款编程 AI 模型的直接访问。
谷歌推出更新版 Gemini 2.5 Pro,AI 性能大幅提升
谷歌最近在其 AI 模型系列中迎来了重要更新。 继今年3月底推出 Gemini2.5Pro 模型后,谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。 虽然两者目前都处于预览阶段,但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放,用户可以体验其强大的功能。
大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一
大模型推理,无疑是当下最受热议的科技话题之一。 但在数学和物理等STEM之外,当LLM落到更多实际应用领域之中,大模型的推理能力又有多大的潜能和局限? 比如,如何评估大模型的推理能力在法律领域的应用,就在当前备受关注。
LLM 协作革命:Group Think 如何重塑推理边界
大家好,我是肆〇柒。 今天和大家聊聊 Group Think。 顾名思义,它通过让单个 LLM 模拟多个并行推理智能体,并以 token 级别的细粒度协作,提出了推理协作的新范式。
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了LLM在复杂任务中的推理效能。
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
机器人的新大脑框架来了! 上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架:Visual Embodied Brain,简称VeBrain。 该模型通过同时集成视觉感知、空间推理和机器人控制能力,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”。
RAG、向量数据库和LLM搜索:人工智能驱动商业智能的未来
译者 | 李睿审校 | 重楼本文对RAG、向量数据库和LLM搜索如何塑造人工智能驱动的商业智能未来进行探讨。 RAG通过集成知识检索提升LLM性能,解决其无法及时纳入最新或专有信息的问题,尤其在客户服务领域影响显著。 向量数据库则支持快速相似性搜索,理解查询语义。
如何重构复杂的代码库 – 面向开发人员的实用指南
译者 | 刘涛审校 | 重楼目录重构概述重构前期准备争取管理层支持通过自动化测试确保安全保障识别高风险区域设定明确的重构目标复杂代码库的重构技巧识别并隔离问题区域渐进式重构与大爆炸式重构拆分单体代码确保向后兼容性处理依赖关系与紧密耦合测试策略(自信地安全重构)在不降低性能的前提下进行重构使用人工智能工具自动化代码审查总结一、重构概述重构是一种对代码开展持续优化的重要手段,其核心目标在于降低代码的复杂程度,削减技术债务。 通过不断完善代码库来解决项目推进过程中出现的代码结构恶化问题,它能将杂乱无章或低效的代码转变为结构良好、便于维护的解决方案。 二、重构前期准备在着手进行代码重构之前,搭建一个坚实稳固的基础有着举足轻重的意义。
阿里开源 Qwen3 新模型 Embedding 及 Reranker,带来强大多语言、跨语言支持
官方表示,在多项基准测试中,Qwen3-Embedding 系列在文本表征和排序任务中展现了卓越的性能。
Cursor 1.0 终于来了
自2023年首次发布以来,Cursor终于迎来了它的第一个重大版本更新——Cursor 1.0正式发布了! 这次更新令人非常兴奋,因为Cursor已经成为我一年多来最常用的AI编程工具。 OpenAI曾多次尝试收购这款应用,但交易最终未能达成。
谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本,多项 AI 性能基准测试评分提升
谷歌于今年 3 月底发布了 Gemini 2.5 Pro 模型,紧接着又在 4 月推出了面向更广泛用户的轻量级版本 Gemini 2.5 Flash。两者目前仍处于预览阶段,但 Flash 版本已可通过 Gemini App 向全球用户开放体验。目前,谷歌再度更新 Google AI Studio 中的 Gemin 2.5 Pro 模型(更新至 06-05 版本),并声称该模型刷新了多项 AI 性能基准“跑分”
马斯克 X 更新开发者协议,禁止第三方使用平台帖子训练 AI 模型
X 的隐私政策仍允许第三方“合作伙伴”在用户未选择退出的情况下,基于该平台的数据进行 AI 模型训练。此外,X 还会将用户数据输入其 AI 模型 Grok,用于训练目的。
如何利用AI改造智能电网
2023年,能源和公用事业领域的AI全球市场规模达到了105.6亿美元,预计到2030年将激增至457.8亿美元,这标志着AI将在重塑未来电力系统方面发挥关键作用。 与此同时,非洲城市正处于能源转型的关键节点,整个非洲大陆仍有近6亿人无法用电,若不首先对基础电网设施进行现代化改造,建设包容性且可持续的智慧城市的目标将难以实现。 随着对老旧资产的升级改造以及对服务不足社区的电力接入扩展工作的加强,AI正迅速成为这一转型的催化剂。
OpenAI付费企业用户猛增至300万 直击微软谷歌AI腹地
OpenAI周三宣布,自2月份以来,其企业用户群激增了50%,付费企业客户已达300万,与此同时,这家AI公司推出了一系列全新的工作场所工具,旨在与微软的企业级AI产品展开直接竞争。 这一里程碑是在推出几项新的面向企业的功能时公布的,凸显了OpenAI在可靠、安全的AI工具能够收取高价的企业市场中的积极扩张,该公司推出了新的“连接器”,这些连接器将ChatGPT与流行的商业应用程序集成在一起,还推出了一项名为“记录模式”(Record Mode)的会议转录功能,并对其深度研究(Deep Research)和Codex编码工具进行了增强。 “ChatGPT正在帮助企业转型,帮助员工更高效、更战略性地工作,”OpenAI的一位发言人告诉记者,“在过去的几个月里,我们一直在不断将ChatGPT发展成为一个对工作越来越有影响力的平台,提供了连接器、与ChatGPT集成的记录模式、Codex、图像生成、深度研究等商业产品。
LLM 的 SFT 与 RL:差异几何?
在大型语言模型(LLM)的训练领域,监督微调(SFT)和强化学习(RL)是两种备受瞩目的训练策略。 尽管它们各自有着独特的机制和侧重点,但笔者经过深入研究和实践观察发现,二者之间的差别并非如表面上那般显著,以下是具体的分析与对比。 一、核心原理的相近性SFT 的本质 :SFT 主要是利用标注好的数据集对预训练的 LLM 进行进一步训练,通过最小化模型输出与标注答案之间的差异,来调整模型的参数。
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践
一、引言:混合RAG技术的发展与挑战在人工智能领域,检索增强生成(RAG)技术正成为构建智能问答系统的核心方案。 传统RAG通过向量数据库存储文档嵌入并检索相关内容,结合大语言模型(LLM)生成回答,有效缓解了LLM的“幻觉”问题。 然而,单一的稠密向量检索(如基于Transformer的嵌入模型)在处理关键词匹配和多义词歧义时存在局限性,而稀疏向量检索(如BM25)虽擅长精确关键词匹配,却缺乏语义理解能力。