AI在线 AI在线

大型语言模型

成功采用AI需要具备两个条件

企业不应回避利用AI工具,但需要找到最大化效率和缓解企业风险之间的平衡点。 他们需要做到以下几点:制定无缝的AI安全政策以往,AI可能只是开发人员或专家交互的技术,但如今,公司各层级的员工都使用AI来协助他们完成各种任务。 因此,企业必须教育所有员工,让他们了解哪些大型语言模型和智能体应用程序是他们被授权使用的,以及他们可以与这些系统共享哪些类型的数据。
4/2/2025 7:00:00 AM
Mike Erquitt

MCP 和 Function Calling:概念

随着人工智能的快速发展,大型语言模型(LLMs)逐渐深入到我们生活与工作的各个方面。 然而,尽管模型强大,但其能力仍存在局限性,比如在实时信息获取和复杂任务执行方面仍有不足。 RAG(检索增强生成)现在在企业的 AI 应用中使用很广泛,就是为了解决模型的信息不够实时,且没有垂直领域知识的问题。
4/1/2025 8:45:56 AM
不止dotNET

基于DeepSeek推理的文本聚类

译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法,并使用DeepSeek推理模型解释推理结果。 本文将探索大型语言模型(LLM)中的推理领域,并介绍DeepSeek这款优秀工具,它能帮助人们解释推论结果,构建能让终端用户更加信赖的机器学习系统。 在默认情况下,机器学习模型是一种黑盒,不会为决策提供开箱即用的解释(XAI)。
3/31/2025 8:28:24 AM
李睿

五分钟读懂 LLM:DeepSeek、ChatGPT 背后的核心技术

LLM(Large Language Model)是大型语言模型的简称,像DeepSeek、ChatGPT等都属于不同公司开发的LLM。 你可以把它想象成一个超级聪明的聊天机器人和写作助手,它通过学习了海量文字资料,变得非常擅长理解和生成人类语言。 简单来说,它能听懂你说什么,也能像模像样地跟你聊天、写文章等等。
3/31/2025 8:15:00 AM
Python数智工坊

SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。 该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。 本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
3/28/2025 10:16:15 AM
Jenray

亚马逊 Alexa 基金扩展投资范围,青睐人工智能初创企业

亚马逊于2015年成立了 Alexa 基金,最初旨在支持早期语音技术初创企业。 随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa ,该基金决定扩展投资范围,更多地关注人工智能初创企业。 Alexa 基金负责人保罗・伯纳德表示,随着人工智能的迅速发展,基金的使命已经超越了最初的语音技术,开始投资包括人工智能硬件和智能助手等多个领域。
3/27/2025 10:01:00 AM
AI在线

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。 据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。 在多项基准测试中,混元-T1展现出强大的性能。
3/25/2025 10:08:00 AM
AI在线

阿里推出全新多模态模型 Qwen2.5-VL-32B:兼顾视觉语言与数学推理

在人工智能领域,阿里巴巴再次带来了重磅消息。 近日,阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。 这款新模型是 Qwen2.5系列中的一员,其他版本包括3B、7B 和72B,而32B 版本在保持性能的同时,更加注重便捷的本地运行体验。
3/25/2025 10:03:00 AM
AI在线

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度,能否改写AI格局?

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324,在人工智能行业引发了震动。 该模型以641GB的体量现身于AI资源库Hugging Face,此次发布延续了DeepSeek低调却极具影响力的风格,没有大肆宣传,仅附带空的README文件和模型权重。 这款模型采用MIT许可,可免费用于商业用途,且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。
3/25/2025 8:54:00 AM
AI在线

王炸!DeepSeek-V3-0324悄然发布 ,免费商用,消费级电脑也能跑!

DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324,在人工智能行业内引发了强烈反响。 这款 容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上,几乎没有任何事先宣传,延续了该公司低调但极具影响力的发布风格。 性能飞跃,媲美 Claude Sonnet3.5DeepSeek-V3的发布之所以引人注目,不仅在于其强大的功能,更在于其部署方式和许可协议。
3/25/2025 8:53:00 AM
AI在线

DeepSeek-V3-0324 悄然发布:技术圈沸腾的低调升级

2025 年 3 月 24 日,中国人工智能研究机构DeepSeek在没有任何预告的情况下,于Hugging Face平台上发布了其旗舰语言模型的最新版本——DeepSeek-V3-0324。 这一"低调而强劲"的更新迅速在技术社区引发热议,众多开发者和AI爱好者分享了他们的初步体验与期待。 以下是根据技术社区反馈整理的深度报道。
3/25/2025 8:25:00 AM
AI在线

李开复重组01.AI:拥抱 Deepseek 开源模型,挑战 OpenAI 商业模式

前谷歌中国区负责人李开复正在调整他的人工智能初创公司01.AI 的战略,全面采用 Deepseek 的开源模型,并表示这对 OpenAI 的商业模式构成了生存挑战。 在接受《南华早报》采访时,李开复透露他的公司已放弃之前训练专有大型语言模型的策略,转而完全依赖 Deepseek 的开源产品。 他表示,Deepseek 的发布在中国引发了"ChatGPT 时刻",带动了国内硬件和软件提供商与 Deepseek 模型的整合。
3/24/2025 10:19:00 AM
AI在线

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。 不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完全依靠强化学习机制(无需人工标注的交互轨迹)来学习最优的搜索查询策略及基于检索知识的推理方法,从而显著提升问答任务的性能表现。
3/21/2025 1:00:54 PM
佚名

视觉语言指令微调数据如何构建?

1、构建策略视觉语言指令微调数据构建策略主要有以下两种:标注适配由于视觉模型的发展,已有规模巨大、多样性且高质量的标注数据。 这些数据适合于广泛的下游任务,并可容易地改造为指令数据。 许多工作将已有的标注数据转化为标准的指令数据格式。
3/21/2025 8:00:00 AM
Goldma

保护LLM的身份和访问管理解决方案IAM

译者 | 李睿审校 | 重楼在人工智能时代,大型语言模型(LLM)的应用正在迅速增长。 这些模型提供了大量的机会,但同时也带来了新的隐私和安全挑战。 应对这些挑战的基本安全措施之一是保护对LLM的访问,以确保只有经过授权的人员才能访问数据和执行任何操作的权限。
3/21/2025 8:00:00 AM
李睿

Cursor 推出 Claude Max,改写 AI 编程格局

一场悄无声息的革命正在编程世界展开。 Cursor 最新推出的 Claude Max 模型,以其惊人的性能和突破性的能力,正在重新定义我们对 AI 辅助编程的认知边界。 这款搭载 Claude3.7大脑的超级模型,不仅智能超群,更凭借一系列革命性突破,向传统 AI 编程工具发起了全面挑战。
3/19/2025 10:01:00 AM
AI在线

详解RAG应用开发幻觉检测利器LettuceDetect​

译者 | 朱先忠审校 | 重楼简介最近,我们团队推出了LettuceDetect框架,这是一款用于检索增强生成(RAG)开发管道的轻量级幻觉检测器。 它是一种基于ModernBERT模型构建的基于编码器的模型,根据MIT许可证发布,带有现成的Python包和预训练模型。 是什么:LettuceDetect是一个标记级检测器,可标记LLM回答中不受支持的片段。
3/19/2025 8:43:17 AM
朱先忠

32B参数的“逆袭”!OLMo 2 32B横空出世,叫板GPT-3.5 Turbo

近日,艾伦人工智能研究所(AI2)重磅发布了其最新的大型语言模型——OLMo232B。 这款模型一经亮相便自带光环,因为它不仅是OLMo2系列的最新力作,更以“完全开放”的姿态,向那些高墙深垒的专有模型发起了强有力的挑战。 OLMo232B最引人注目的特点莫过于其彻彻底底的开源属性。
3/18/2025 2:53:00 PM
AI在线