理论
DeepSeek对数据治理的影响
DEEPSEEK作为智能一款助手,在数据治理体系中具有深远的影响。 它通过提供智能化、自动化和高效化的解决方案,推动企业在数据治理变革与领域的优化。 以下是EPSEEK对数据治理体系影响的多角度分析: 一、战略层面:推动数据治理目标的明确与实现1.
3/5/2025 10:29:12 AM
佚名
显著超越SFT,o1/DeepSeek-R1背后秘诀也能用于多模态大模型了
o1/DeepSeek-R1背后秘诀也能扩展到多模态了! 举个例子,提问多模态大模型:“什么宝可梦可以释放技能十万伏特”时,模型通过推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。 这是来自上海交大、上海AI Lab、港中文大学的研究人员推出的视觉强化微调开源项目——Visual-RFT (Visual Reinforcement Fine-Tuning), 只需10~1000条数据,就能通过思考过程和基于规则的监督提升多模态大模型的性能。
3/5/2025 10:21:04 AM
量子位
为DeepSeek MoE模型带来「免费午餐」加速,专家链可大幅提升LLM的信息处理能力
我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE 技术依然还有显著的优化空间。 近日,美国西北大学计算机科学博士生王子涵(Zihan Wang)等人在这个方向上取得了突破,提出了一种名为专家链(CoE)的技术。 实验表明,CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。
3/5/2025 9:50:00 AM
机器之心
普特南数赛公布,MIT创5连冠神话!3位00后华人称霸TOP 5
普特南数学竞赛,结果出炉! MIT再次成为全世界的焦点,连续5年夺冠,5位本科生科横扫榜单TOP 5。 其中,有三位00后华人学生。
3/5/2025 9:40:00 AM
新智元
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人
GPT-4.5,口碑又意外反转了? 经过3千多轮比较,GPT-4.5在全部类别拿下第一,位居LLM竞技场首位! 「不看智商看情商」的GPT-4.5,不是推理模型,此前的基准测试中基本都是全班垫底,惨不忍睹。
3/5/2025 9:32:00 AM
新智元
小模型:传统行业智能化转型的“轻量级引擎”
一、生成式AI浪潮下,传统行业CIO的“务实革命”当全球企业竞逐千亿参数大模型时,制造业、医药、能源等传统行业的CIO们正悄然发起一场“务实革命”——与其追逐算力军备竞赛,他们更关注如何让AI真正落地车间、实验室与供应链。 面对高昂的GPU集群投入、复杂的数据合规要求,以及垂直场景的碎片化需求,企业技术决策者开始重新审视技术路径:能否以更轻量的方式,撬动智能化转型?小模型(Small Language Models, SLM)的崛起,恰恰击中了这一痛点。 相较于“大而泛”的通用大模型,参数规模通常小于10亿的小模型凭借轻量化架构、领域精调能力和边缘端部署优势,正成为传统行业的“轻量级引擎”。
3/5/2025 9:30:00 AM
Warp vs. Ghostty:哪个终端应用更符合你的开发需求?
Warp 拥有许多功能,包括 AI,而 Ghostty 则在开箱即用方面更轻量级。 以下是我们关于哪个终端应用程序最适合您的指南。 译自Warp vs.
3/5/2025 8:58:53 AM
岱军
Microsoft Dragon Copilot:医疗领域的 AI 革命
在医疗行业,医生和护士们常常被繁重的文书工作压得喘不过气来,这不仅影响了他们的工作效率,还可能影响到患者体验。 现在,Microsoft 推出了一款名为 Dragon Copilot 的 AI 助手,旨在帮助医疗专业人员简化临床工作流程,让他们能够更多地关注患者护理。 下面,就让我们一起来了解一下这款革命性的产品。
3/5/2025 8:56:31 AM
深海幽光
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
基础模型竞争又紧张刺激起来了! GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。 两者都是获得3000 票数,总分1412:1411只差一分。
3/5/2025 8:50:00 AM
量子位
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天? ? ?
3/5/2025 8:40:00 AM
量子位
实测字节免费AI编程,还让不让Cursor活了
国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。 例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:生成一个网页版 Flappy Bird游戏并运行。 不难看出啊,整个过程真真儿的就是一气呵成。
3/5/2025 8:30:00 AM
量子位
经网络的每一层都是干嘛的?这才是神经网络结构的核心
组成一个神经网络从技术上来说主要有以下几个部分:数据集神经网络结构损失函数优化函数反向传播而不同神经网络模型之间最主要的区别就是神经网络结构的异同,当然最相似的地方也是神经网络结构。 原因就在于神经网络结构是由多个神经网络层所组成的;而使用不同的层就实现了不同功能的神经网络模型。 神经网络的层一个神经网络是由多种神经网络层所组成的,而每个神经网络层实现不同的功能;然后由此组成神经网络模型。
3/5/2025 8:00:00 AM
AI探索时代
全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法
用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中结束,需要大语言模型和用户进行多轮会话。 这种跨越多轮的会话目前仍然存在一些问题:大语言模型的回答容易出错,不能帮助用户达到目标,且随着会话轮数增加出错概率会增大。 对同一个命令或问题,大语言模型比较难以根据实际需求产生不同流程的响应,在需要大语言模型与环境交互时,目前比较流行的做法是使用函数调用或工具调用,但不够优雅和高效,而且由于上下文窗口的限制,能支持的工具调用数量有限。
3/5/2025 4:00:00 AM
新智元
如何高效使用DeepSeek-R1:推理大模型调优指南
如何高效使用DeepSeek-R1:推理大模型提示工程调优指南LLM 中 DeepSeek-R1 与传统非推理模型的交互方式存在本质差异。 在数学推导、代码生成等复杂任务中展现出色能力。 但与通用大模型不同,推理型模型需要特殊的交互策略,博文内容列举几个常见的优化手段,帮助开发者构建高效的交互范式。
3/5/2025 3:00:00 AM
山河已无恙
彻底理解推理模型和通用模型
以下是通用模型和推理模型的核心总结及其区别,通过表格和关键点快速对比。 一、概念1、通用模型(General-Purpose Models)定义:能够处理多种任务的模型,如文本生成、问答、翻译、摘要等,通常基于大规模预训练(如GPT系列、PaLM等)。 特点:a.广泛适用性:通过海量数据预训练,学习通用语言模式和知识。
3/5/2025 12:22:00 AM
独行者木子李
B站文生视频模型工程实践
一、前言近年来,AI 内容生成(AIGC)领域的快速发展令人雀跃,OpenAI 在 2023 年初推出大型语言模型(LLM)GPT-4 受到了学术界和工业界的极大关注。 OpenAI 随后在 2024 年初推出文生视频(T2V)模型Sora,能够根据文本指令制作出具有现实风格和富有想象力的场景视频,更是展示了令人惊喜的“世界模拟器”能力。 B站作为UGC内容丰富的视频网站,在视频生成模型领域有着天然数据优势和广泛应用场景。
3/5/2025 12:00:55 AM
AI
生物版DeepSeek的隐秘竞争,中国模型被视为更强对手,赛诺菲10亿美金押宝!
编辑 | ScienceAI上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。 正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。 实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。
3/4/2025 6:22:00 PM
ScienceAI
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。 论文地址: : Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。 通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
3/4/2025 5:27:05 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind