AI在线 AI在线

大型语言模型

王炸!DeepSeek-V3-0324悄然发布 ,免费商用,消费级电脑也能跑!

DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324,在人工智能行业内引发了强烈反响。 这款 容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上,几乎没有任何事先宣传,延续了该公司低调但极具影响力的发布风格。 性能飞跃,媲美 Claude Sonnet3.5DeepSeek-V3的发布之所以引人注目,不仅在于其强大的功能,更在于其部署方式和许可协议。
3/25/2025 8:53:00 AM
AI在线

DeepSeek-V3-0324 悄然发布:技术圈沸腾的低调升级

2025 年 3 月 24 日,中国人工智能研究机构DeepSeek在没有任何预告的情况下,于Hugging Face平台上发布了其旗舰语言模型的最新版本——DeepSeek-V3-0324。 这一"低调而强劲"的更新迅速在技术社区引发热议,众多开发者和AI爱好者分享了他们的初步体验与期待。 以下是根据技术社区反馈整理的深度报道。
3/25/2025 8:25:00 AM
AI在线

李开复重组01.AI:拥抱 Deepseek 开源模型,挑战 OpenAI 商业模式

前谷歌中国区负责人李开复正在调整他的人工智能初创公司01.AI 的战略,全面采用 Deepseek 的开源模型,并表示这对 OpenAI 的商业模式构成了生存挑战。 在接受《南华早报》采访时,李开复透露他的公司已放弃之前训练专有大型语言模型的策略,转而完全依赖 Deepseek 的开源产品。 他表示,Deepseek 的发布在中国引发了"ChatGPT 时刻",带动了国内硬件和软件提供商与 Deepseek 模型的整合。
3/24/2025 10:19:00 AM
AI在线

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。 不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完全依靠强化学习机制(无需人工标注的交互轨迹)来学习最优的搜索查询策略及基于检索知识的推理方法,从而显著提升问答任务的性能表现。
3/21/2025 1:00:54 PM
佚名

视觉语言指令微调数据如何构建?

1、构建策略视觉语言指令微调数据构建策略主要有以下两种:标注适配由于视觉模型的发展,已有规模巨大、多样性且高质量的标注数据。 这些数据适合于广泛的下游任务,并可容易地改造为指令数据。 许多工作将已有的标注数据转化为标准的指令数据格式。
3/21/2025 8:00:00 AM
Goldma

保护LLM的身份和访问管理解决方案IAM

译者 | 李睿审校 | 重楼在人工智能时代,大型语言模型(LLM)的应用正在迅速增长。 这些模型提供了大量的机会,但同时也带来了新的隐私和安全挑战。 应对这些挑战的基本安全措施之一是保护对LLM的访问,以确保只有经过授权的人员才能访问数据和执行任何操作的权限。
3/21/2025 8:00:00 AM
李睿

Cursor 推出 Claude Max,改写 AI 编程格局

一场悄无声息的革命正在编程世界展开。 Cursor 最新推出的 Claude Max 模型,以其惊人的性能和突破性的能力,正在重新定义我们对 AI 辅助编程的认知边界。 这款搭载 Claude3.7大脑的超级模型,不仅智能超群,更凭借一系列革命性突破,向传统 AI 编程工具发起了全面挑战。
3/19/2025 10:01:00 AM
AI在线

详解RAG应用开发幻觉检测利器LettuceDetect​

译者 | 朱先忠审校 | 重楼简介最近,我们团队推出了LettuceDetect框架,这是一款用于检索增强生成(RAG)开发管道的轻量级幻觉检测器。 它是一种基于ModernBERT模型构建的基于编码器的模型,根据MIT许可证发布,带有现成的Python包和预训练模型。 是什么:LettuceDetect是一个标记级检测器,可标记LLM回答中不受支持的片段。
3/19/2025 8:43:17 AM
朱先忠

32B参数的“逆袭”!OLMo 2 32B横空出世,叫板GPT-3.5 Turbo

近日,艾伦人工智能研究所(AI2)重磅发布了其最新的大型语言模型——OLMo232B。 这款模型一经亮相便自带光环,因为它不仅是OLMo2系列的最新力作,更以“完全开放”的姿态,向那些高墙深垒的专有模型发起了强有力的挑战。 OLMo232B最引人注目的特点莫过于其彻彻底底的开源属性。
3/18/2025 2:53:00 PM
AI在线

OpenAI 发布报告:大多数GPT-4o API问题已解决

3月18日,OpenAI 发布了最新的事故报告,宣布其 GPT-4o API 问题已基本得到解决。 几天前,该公司曾指出,由于用户通过 API 使用 GPT-4o 时出现响应性能下降,导致部分用户受到影响。 此次更新的报告显示,大多数用户已经恢复了正常的服务体验,但仍有少数客户的情况正在持续关注中。
3/18/2025 9:38:00 AM
AI在线

xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争

近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线

AAAI 2025|Portcullis —— 面向第三方大型语言模型的可信隐私保护网关

在大模型浪潮的推动下,企业和个人的数据安全面临前所未有的挑战。 抖音集团安全研究团队推出Portcullis ——针对大模型的隐私保护网关,旨在为第三方大型语言模型(LLM)推理服务提供可控可信的隐私防护。 该工作成果 《Portcullis : A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference》已被人工智能领域的顶级会议AAAI 2025以Oral报告的形式接收。
3/18/2025 7:00:00 AM
安全研究团队

Anthropic或将发布Claude3.7Sonnet Max?Cursor更新引发猜测

近日,AI代码编辑器Cursor在其最新版本0.47.5的更新日志中透露,正在为Anthropic即将推出的“Claude3.7Sonnet Max”模型做准备。 这一消息迅速引发业内关注。 然而,目前Anthropic尚未发布任何官方公告,关于“Claude3.7Sonnet Max”的具体信息仍是个谜。
3/17/2025 3:14:00 PM
AI在线

有望重新定义语言生成技术的扩散模型——LLaDA​

译者 | 朱先忠审校 | 重楼简介如果我们能让语言模型更像人类一样思考,结果会怎样? 如果它们不是一次写一个字,而是先勾勒出自己的想法,然后逐渐完善,结果又会怎样? 这正是大型语言扩散模型(LLaDA)所引入的:一种与大型语言模型(LLM)中当前使用的文本生成不同的方法。
3/17/2025 11:35:36 AM
朱先忠

大型语言模型是否解决了搜索问题?

译者 | 李睿审校 | 重楼尽管LLM在内容生成方面表现出色,但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。 大型语言模型(LLM)的涌现推动了信息检索和人机交互的范式转变。 这些模型在大量的文本语料库上进行训练,并针对预测语言任务进行了优化,在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。
3/13/2025 12:09:27 PM
李睿

谷歌持有Anthropic14%股份,投资已达30亿美元

根据《纽约时报》获取的法律文件显示,谷歌目前持有人工智能初创公司Anthropic14%的股份,接近其允许持有的15%上限。 值得注意的是,尽管投资规模庞大,谷歌在Anthropic并不享有投票权、董事会席位或董事会观察员权。 据报道,谷歌迄今已向Anthropic投入了总计30亿美元的资金,并计划在2025年9月再追加7.5亿美元的投资。
3/12/2025 9:30:00 AM
AI在线

人工智能的深远影响不仅仅是失业:数字幽灵的神秘力量

人工智能正在改变日常生活,从个人助理和推荐算法到高级生成模型。 但最深刻的变化可能是我们未曾预料到的。 虽然新闻头条往往聚焦失业或隐私问题,但人工智能的影响远不止这些。
3/10/2025 10:30:08 AM
晓晓

AI21 Labs发布Jamba 1.6,打破长文本处理极限、支持多种语言

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型,这款模型被称为当前市场上最强大、最高效的长文本处理模型。 与传统的 Transformer 模型相比,Jamba 模型在处理长上下文时展现出了更高的速度和质量,其推理速度比同类模型快了2.5倍,标志着一种新的技术突破。 Jamba1.6系列包括 Jamba Mini(12亿参数)和 Jamba Large(94亿参数),并且专门针对商业应用进行了优化,具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。
3/9/2025 11:06:00 AM
AI在线