资讯列表
腾讯发布Hunyuan-TurboS:首款超大型混合Transformer-Mamba MoE模型震撼登场
今日,腾讯在X平台上正式宣布推出其最新AI模型Hunyuan-TurboS,这款被誉为“首款超大型Hybrid-Transformer-Mamba MoE模型”的产品迅速引发全球科技圈的热议。 根据X用户披露的信息,Hunyuan-TurboS通过融合Mamba的高效长序列处理能力和Transformer的强大上下文理解能力,成功克服了传统纯Transformer模型在长文本训练和推理上的瓶颈,展现出令人瞩目的性能突破。 据介绍,传统Transformer模型因O(N²)复杂度和KV-Cache问题,在处理长文本时往往面临效率低下和高成本的挑战。
3/11/2025 8:56:00 AM
AI在线
DeepSeek R2 或于3月17日发布,将撼动Claude Sonnet 3.7的地位
根据X平台上的最新消息,DeepSeek下一代AI模型DeepSeek R2或将于3月17日正式发布。 这一消息迅速引发业界关注,许多人认为这一新模型可能会对现有AI巨头,如Anthropic的Claude Sonnet3.7,构成强有力的挑战。 据X用户 tanvitabs 今日凌晨发布的帖子透露,DeepSeek R2宣称在多个关键领域实现突破,包括更出色的编程能力、多语言推理能力,以及以更低的成本提供更高的准确性。
3/11/2025 8:51:00 AM
AI在线
Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了
最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心
DeepSeek级AI?训练自己的推理模型仅需七个步骤
译者 | 布加迪审校 | 重楼谁需要超级计算机? 仅用15GB VRAM就可以训练你自己的功能强大的AI推理模型! DeepSeek的R1模型在不需要人类反馈的情况下就能进行更深思熟虑的推理,已颠覆了大语言模型(LLM)领域。
3/11/2025 8:37:42 AM
布加迪
人类学的 MCP 彻底颠覆 AI 交互!
人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 8:37:17 AM
dev
人加AI:重新定义协作智能时代的工作
人机协作中缺失的中间环节“有一种新兴的协作智能,是现在公司竞争和创新所需要的,”威尔逊在我们的对话中解释道,“这真的是关于深思熟虑且严谨地创造那种结合效应,即人类的聪明才智、人类的创新加上AI系统,能够超越任何一方单独所能做到的。 ”为了说明这一点,威尔逊分享了一个立陶宛研究人员的有趣故事,该研究人员巧妙地重新利用了AlphaFold(一个预测蛋白质结构的AI系统)来解决其创造者未曾设想的复杂蛋白质相互作用问题。 结果呢?这是人类创造力与AI处理能力相结合的科学突破。
3/11/2025 8:30:00 AM
Bernard Marr
OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为
结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。
3/11/2025 8:26:34 AM
问舟
六种LLM定制开发基本策略:提示工程、解码策略、RAG、代理、微调和RLHF
译者 | 朱先忠审校 | 重楼为什么要定制LLM? 大型语言模型是基于自监督学习预训练的深度学习模型,需要大量的训练数据资源、训练时间并保存大量参数。 尤其是在过去2年里,LLM彻底改变了自然语言处理,在理解和生成类似人类的文本方面表现出色。
3/11/2025 8:00:00 AM
朱先忠
2025年的智能体:改变业务、重新定义领导力并加速数字化转型
对于CIO和CTO而言,这些系统既带来了前所未有的机遇,也肩负着重大责任。 智能体正在重塑领导者制定战略、构建基础设施和组织文化的方式,要求他们采取果断行动和具备远见卓识。 智能体在数字化转型中的角色智能体被设计为模仿人类的能力,包括学习、推理和决策。
3/11/2025 8:00:00 AM
Mohit Gupta
低价Claude3.7极速使用,白票Deepseek满血R1
在当今数字化时代,人工智能技术正以前所未有的速度改变着我们的工作和生活方式。 无论你是开发者、创意工作者、还是企业管理者,拥有高效、经济的AI工具已成为提升效率的关键。 而今天,我要向大家隆重推荐的Token-AI平台,正是实现这一目标的完美解决方案。
3/11/2025 2:00:00 AM
tokengo
Spring AI这样玩才高级!注解式AI服务开发,这些技巧 GitHub 都找不到
AI Services是什么AI Services 的设计灵感来源于 Spring Data JPA 和 Retrofit 等框架,采用声明式接口定义所需的 API,然后由框架自动生成实现该接口的代理对象。 这种方法隐藏了与 LLM 交互的复杂性,提供了简单直观的 API。 AI Services 主要处理以下常见操作:格式化输入以发送给 LLM解析 LLM 的输出同时还支持更高级的功能:聊天记忆管理工具调用(Function Calling)检索增强生成(RAG)基本使用示例LangChain4j是 Java 生态系统中的一个流行框架,它提供了两种抽象级别:低级 API 和高级 API。
3/11/2025 1:23:11 AM
冷冷
通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法
在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升) GRPO 的奇妙世界,看看它到底是怎么回事。
3/11/2025 1:00:00 AM
大模型之路
全网爆火的Manus到底能做什么?超多演示案例来了!
关注科技 AI 圈的同学,在 3 月 6 号这天都被 Manus 刷屏了,那么他是个啥呢? 和 DeepSeek 和 Open AI 有什么区别呢? Manus 官网上是这样说的“Manus 是一个通用的人工智能代理,它连接思想和行动:它不仅会思考,还会提供结果。
3/11/2025 12:54:46 AM
益达
如何用Cursor+Claude两个神器,两步完成APP开发?
最近在 X 上看到了一些人在用 Claude 3.7 Sonnet 生成 App 原型图的尝试,受到启发,发现这么生成不同界面的原型图再让 Cursor 基于原型图开发 App 会是很好的尝试。 尤其是,你也可以不两步直接生成,而是在过程中更可视化地思考你要生成的原型,这对于非专业的产品经理来说,会是好得多的方式。 我今天做了些尝试后,效果让我感到惊艳。
3/11/2025 12:45:03 AM
果汁
从DeepSeek MoE专家负载均衡谈起
上周中的时候, 同事给我了一份线上DeepSeek-R1推理的Expert激活的数据用来研究一些专家负载均衡的算法, 当然这些线上数据来自于公司内部的请求, 从中观测出前面10层专家基本上是相对均衡的, 而越到后面不均衡程度差异越大. 当时讨论到这个问题时, 是怀疑内部的一些请求是否专注于电商领域而带来的不平衡特性, 于是做了一些研究. 恰好搜到Intel的一篇论文《Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek-R1 Expert Specialization》[1]有一些基于语义的MoE分析专家的专业性相关的问题, 再加上前几天看到某个公众号采访某院长的一个比较有趣的说法:“Dense模型适合toB业务,MoE模型适合toC业务”.
3/11/2025 12:35:00 AM
zartbot
一条神奇的指令,DeepSeek直接文生图
最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。
3/11/2025 12:22:00 AM
、平凡世界
Spring-Smart-DI 动态切换实现类,很不错!
在系统开发的实际场景中,我们常常会碰到这样一类需求:同一个功能需要对接多个服务提供商。 这么做主要基于两个重要原因。 其一,为了规避某个服务商的服务出现不可用的风险,以便在出现问题时能够迅速切换到其他服务商,确保系统的稳定性和业务的连续性;其二,不同服务商的收费标准存在差异,从成本控制的角度出发,需要根据实际情况进行灵活切换。
3/11/2025 12:00:35 AM
不才陈某
鸿海富士康推出旗下首款 AI 推理大模型 FoxBrain ,基于 Meta Llama 3.1 打造
鸿海富士康宣布旗下首个AI推理大模型FoxBrain,基于Meta Llama 3.1打造,涵盖数据分析、数学、推理和代码生成等功能,未来将开源。与英伟达合作,利用120块H100 GPU训练一个月,优化繁体中文处理。 #富士康 #AI #FoxBrain
3/10/2025 8:45:17 PM
漾仔