大型语言模型

Gartner报告显示：2027年，任务特定AI将超越通用AI

近日，Gartner 发布了一份新报告，指出到2027年，企业将使用任务特定的人工智能模型的频率是通用大型语言模型的三倍。报告中提到，虽然通用的语言模型在语言处理方面具有强大的能力，但在需要深入理解特定业务领域的任务中，它们的响应准确性却会下降。因此，越来越多的企业开始关注定制化的 AI 模型，以满足其特定需求。

4/17/2025 12:01:15 PM

AI在线

从黑箱到透明工厂：Anthropic用回路追踪技术给LLM装上思维监控屏

译者 | 朱先忠审校 | 重楼引言多年来，基于Transformer的大型语言模型（LLM）在从简单的信息检索系统到能够进行编码、写作、开展研究的复杂智能体等一系列任务上取得了长足的进步。然而，尽管这些模型功能强大，但它们在很大程度上仍然是黑匣子。给定输入，它们可以完成任务，但我们缺乏直观的方法来理解任务的具体完成方式。

4/16/2025 8:05:00 AM

朱先忠

软件包幻觉：LLM可能会向粗心的开发人员提供恶意代码

大型语言模型倾向于“虚构”不存在的代码包，这可能会成为一种新型供应链攻击的基础，这种攻击被赛斯·拉森(Seth Larson，Python软件基金会的驻场安全开发人员)称为“slopsquatting”。一种已知现象如今，许多软件开发人员使用大型语言模型(LLM)来辅助编程，然而，不幸的是，LLM在回答各种话题的问题时，会编造事实并自信地呈现出来，这一已知倾向也延伸到了编码领域。这种情况已为人所知一段时间了。

4/16/2025 7:02:00 AM

Zeljka

隐藏在AI工作流程中的悄无声息的数据泄露

随着AI日益融入日常业务流程，数据泄露的风险也随之增加。 Prompt泄露并非罕见个例，而是员工使用大型语言模型时的自然结果。 CISO不能将其视为次要问题。

4/16/2025 7:00:00 AM

Mirko

智谱全新站点 http://z.ai 正式启用

北京智谱华章科技有限公司（以下简称智谱）全新官方网站已全面上线。据 AIbase 了解，该平台集成了最新的对话、推理与沉思三款 GLM 模型，自今日起全面向全球用户免费开放使用。

4/15/2025 10:01:32 AM

AI在线

THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

在快速发展的语言模型领域，研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低，但在性能上往往不及更大的模型。

4/15/2025 10:01:31 AM

AI在线

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

字节跳动Seed团队推出VAPO强化学习框架，针对大型语言模型在复杂任务中的推理能力进行优化。VAPO通过三项创新技术，显著提升模型性能，在AIME24基准测试中得分从5分跃升至60.4分。#AI技术# #字节跳动#

4/12/2025 1:46:13 PM

故渊

小型推理模型的崛起：紧凑型人工智能能否匹敌GPT级推理能力？

译者 | 涂承烨审校 | 重楼近年来，人工智能领域一直沉迷于大型语言模型（LLMs）的成功。这些模型最初设计用于自然语言处理，如今已演变为强大的推理工具，能够通过类人类的逐步思考过程解决复杂问题。然而，尽管LLMs具备卓越的推理能力，它们仍存在显著缺陷，包括高昂的计算成本和缓慢的部署速度，这使得它们在移动设备或边缘计算等资源受限的实际场景中难以应用。

4/10/2025 8:23:11 AM

涂承烨

GenAI红队：将LLM置于网络安全测试中的技巧和技术

译者 | 晶颜审校 | 重楼从头构建一个GenAI红队，或者让现有的红队适应新技术是一个复杂的过程，OWASP在其最新指南中帮助阐释了这一过程。红队是测试和支持网络安全系统的一种有效方法，但它仍需适应技术的发展而不断完善。近年来，生成式人工智能（GenAI）和大型语言模型（LLM）的爆炸式增长正迫使红队世界适应。

4/7/2025 8:33:49 AM

晶颜

成功采用AI需要具备两个条件

企业不应回避利用AI工具，但需要找到最大化效率和缓解企业风险之间的平衡点。他们需要做到以下几点：制定无缝的AI安全政策以往，AI可能只是开发人员或专家交互的技术，但如今，公司各层级的员工都使用AI来协助他们完成各种任务。因此，企业必须教育所有员工，让他们了解哪些大型语言模型和智能体应用程序是他们被授权使用的，以及他们可以与这些系统共享哪些类型的数据。

4/2/2025 7:00:00 AM

Mike Erquitt

MCP 和 Function Calling：概念

随着人工智能的快速发展，大型语言模型（LLMs）逐渐深入到我们生活与工作的各个方面。然而，尽管模型强大，但其能力仍存在局限性，比如在实时信息获取和复杂任务执行方面仍有不足。 RAG（检索增强生成）现在在企业的 AI 应用中使用很广泛，就是为了解决模型的信息不够实时，且没有垂直领域知识的问题。

4/1/2025 8:45:56 AM

不止dotNET

基于DeepSeek推理的文本聚类

译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法，并使用DeepSeek推理模型解释推理结果。本文将探索大型语言模型（LLM）中的推理领域，并介绍DeepSeek这款优秀工具，它能帮助人们解释推论结果，构建能让终端用户更加信赖的机器学习系统。在默认情况下，机器学习模型是一种黑盒，不会为决策提供开箱即用的解释（XAI）。

3/31/2025 8:28:24 AM

李睿

五分钟读懂 LLM：DeepSeek、ChatGPT 背后的核心技术

LLM（Large Language Model）是大型语言模型的简称，像DeepSeek、ChatGPT等都属于不同公司开发的LLM。你可以把它想象成一个超级聪明的聊天机器人和写作助手，它通过学习了海量文字资料，变得非常擅长理解和生成人类语言。简单来说，它能听懂你说什么，也能像模像样地跟你聊天、写文章等等。

3/31/2025 8:15:00 AM

Python数智工坊

SWEET-RL：基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL（Step-WisE Evaluation from Training-time information，基于训练时信息的逐步评估）是多轮大型语言模型（LLM）代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法，成功率提升了6%，使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。

3/28/2025 10:16:15 AM

Jenray

亚马逊 Alexa 基金扩展投资范围，青睐人工智能初创企业

亚马逊于2015年成立了 Alexa 基金，最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa ，该基金决定扩展投资范围，更多地关注人工智能初创企业。 Alexa 基金负责人保罗・伯纳德表示，随着人工智能的迅速发展，基金的使命已经超越了最初的语音技术，开始投资包括人工智能硬件和智能助手等多个领域。

3/27/2025 10:01:00 AM

AI在线

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。在多项基准测试中，混元-T1展现出强大的性能。

3/25/2025 10:08:00 AM

AI在线

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。

3/25/2025 10:03:00 AM

AI在线

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度，能否改写AI格局?

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324，在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face，此次发布延续了DeepSeek低调却极具影响力的风格，没有大肆宣传，仅附带空的README文件和模型权重。这款模型采用MIT许可，可免费用于商业用途，且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。

3/25/2025 8:54:00 AM

AI在线

资讯热榜

2025 年多款 Deep Research 智能体框架全面对比基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案，助力短剧出海 OpenAI夺金IOI，但输给3位中国高中生和GPT聊了21天，我差点成为陶哲轩刚刚，OpenAI内部推理模型斩获IOI 2025金牌！所有AI选手中第一扎克伯格看OpenAI直播挖人，北大校友孙之清加入Meta Meta刚刚开源DINOv3，横扫60+任务，无标注封神！免费使用GPT-5！一手实测案例，代码能力强的离谱

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体论文英伟达 Anthropic 代码算法训练 Stable Diffusion 芯片蛋白质开发者腾讯 LLM 生成式苹果 Claude Agent AI新词神经网络 AI for Science 3D 机器学习研究生成 xAI 人形机器人 AI视频计算 Sora GPU AI设计百度华为工具大语言模型搜索具身智能场景 RAG 字节跳动大型语言模型深度学习预测伟达视觉 Transformer AGI 视频生成架构神器推荐亚马逊 Copilot DeepMind 应用安全

大型语言模型

​Gartner报告显示：2027年，任务特定AI将超越通用AI

从黑箱到透明工厂：Anthropic用回路追踪技术给LLM装上思维监控屏​

软件包幻觉：LLM可能会向粗心的开发人员提供恶意代码

隐藏在AI工作流程中的悄无声息的数据泄露

智谱全新站点 http://z.ai 正式启用

​THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

小型推理模型的崛起：紧凑型人工智能能否匹敌GPT级推理能力？

GenAI红队：将LLM置于网络安全测试中的技巧和技术

成功采用AI需要具备两个条件

MCP 和 Function Calling：概念

基于DeepSeek推理的文本聚类

五分钟读懂 LLM：DeepSeek、ChatGPT 背后的核心技术

SWEET-RL：基于训练时信息的多轮LLM代理强化学习框架

亚马逊 Alexa 基金扩展投资范围，青睐人工智能初创企业

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度，能否改写AI格局?

Gartner报告显示：2027年，任务特定AI将超越通用AI

从黑箱到透明工厂：Anthropic用回路追踪技术给LLM装上思维监控屏

THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争