AI
DeepSeek并非完美,训练过程存在“深度诅咒”
高性能大模型在训练的过程中通常需要数千个GPU,耗费数月甚至更长时间才能完成一次训练。 这种巨大的资源投入使得模型的每一层都必须高效训练,才能确保算力资源最大化利用。 但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现,这些模型的深层在训练过程中表现并不好,甚至可以被完全剪枝而不会影响模型性能。
2/12/2025 1:42:25 PM
AIGC开放社区
AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评
验证码通过利用人类与机器的认知差异实现身份验证。 传统的验证码方案主要依赖文本扭曲[1]、图像分类[2,3]或逻辑推理[4]来区分人类与机器,但随着多模态LLMs(Large Language Model)的发展[5],这些方法逐渐失效,机器也能达到人类水平的认知。 GPT-4o对简单「文本验证码」的破解成功率超过90%,Gemini 1.5 Pro 2.0[6]能识别带噪声的「reCAPTCHA图像」(成功率50%);LLMs在「推理验证码」上的表现较差(平均成功率20%),但人类用户的失败率也同样很高。
2/12/2025 1:37:56 PM
新智元
如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践
本文的通讯作者是北京大学计算机学院长聘教授李戈。 本文一作是 aiXcoder 蒋思源和北大李戈教授课题组博士生李佳,团队重点关注融合深度学习与软件工程的代码建模方法。 如何训练一个代码大模型?
2/12/2025 1:34:40 PM
机器之心
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
在最近的一篇论文中,来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。 市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 论文地址:: 地址:,研究者设计了一套统一的指令微调格式 (Instruction Tuning Pipeline),整合了五种不同的任务,超过 20 个数据集一起进行联合训练。
2/12/2025 1:31:33 PM
机器之心
奥特曼公开回怼马斯克,OpenAI董事会成员:说要收购,没收到报价啊?
奥特曼马斯克互怼继续! 继两人因“收购OpenAI”在𝕏平台爆发口水大战后,OpenAI CEO奥特曼在随后的巴黎AI峰会上,对马斯克予以公开回击。 马斯克此举只是压制竞争的小伎俩,我希望他能通过打造更好的产品来竞争;可能他的一生都处于不安全状态,我为这个人感到难过…我不认为他是个快乐的人。
2/12/2025 1:17:25 PM
量子位
DeepSeek被曝估值1500亿达OpenAI一半?巴黎地铁70岁老人都在聊!
DeepSeek的估值,被曝已达1500亿美元,达到了OpenAI的一半? 最近,Bloomberg的这个数据,引起了轩然大波。 所有人都在问:真的假的?
2/12/2025 12:47:01 PM
新智元
三分钟学会计算DeepSeek的显存内存配置
DeepSeek本地部署前段时间DeepSeek震惊了全世界不容易啊终于国内有了自己的精品图片但访问过程中频繁的 “服务器繁忙”,也让很多人尝而不得作为技术人员都在考虑如何充分利用开源的价值让我们的程序也能借船出海搭上AI的快车,那么问题来了。 如果我需要本地部署一个大模型需要什么配置的电脑呢? 显卡、显存怎么选配模型的大小,决定了对硬件的需求以 DeepSeek-R1 为例1.5b、7b、32b、70b、671b 之间差距非常大图片很多人埋怨说:我的大模型就是个“人工智障”但你得反过来检视一下是不是用的模型参数太少了?
2/12/2025 12:45:06 PM
了不起
突发:苹果AI与阿里牵手成功!曝本地AI功能已提交网信部审批!曾考虑采用DeepSeek
编辑 | 伊风终于定了? 几经波折,苹果AI在中国的落地终于有了眉目! 阿里最终与苹果牵手成功,合作开发国行的Apple Intelligence。
2/12/2025 12:36:11 PM
伊风
DeepSeek R1 搭建个人 AI 知识库
前言上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。 其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。
2/12/2025 12:12:59 PM
cqhly
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心
本地部署 DeepSeek:打造你的专属 AI 推理环境,简单明了适合新手
随着 AI 大模型的爆发,DeepSeek 作为一款备受瞩目的开源大模型,吸引了众多开发者的关注。 如何在本地搭建 DeepSeek 推理环境,以便更高效地进行 AI 研究和应用开发? 本篇文章将为你详细解析本地部署 DeepSeek 的完整流程,让你轻松打造属于自己的 AI 推理环境。
2/12/2025 11:59:15 AM
派大星
微软:生成式AI可导致人类认知能力下降
AI正在掀起一场“工作革命”,根据Anthropic公司近日发布的AI经济指数报告,在软件开发(37.2%)、艺术文化创作(10.3%)等知识密集型领域,57%的交互呈现"人机协作"特征。 但是,在“AI大大增强工作效率”的同时,是否也会对人类知识工作者产生负面影响? 近日,微软与卡耐基梅隆大学的一项研究发现,生成式人工智能可导致知识工作者的认知和批判思维能力下降。
2/12/2025 11:36:27 AM
佚名
Deepseek的前世今生
DeepSeek(深度求索)引起硅谷“恐慌”,性能超越了美国的顶尖模型,且研发成本更低,使用的芯片性能也较弱。 甚至有人猜测DeepSeek(深度求索)模型对美国股市都构成了威胁。 中国AI公司证明了用有限的计算资源,足以做出顶尖水平的模型。
2/12/2025 11:25:39 AM
小扒
新基准!威斯康星大学开源Ultra-AV:统一自动驾驶纵向轨迹数据集
摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/12/2025 10:30:00 AM
Hang Zhou等
AI赋能企业数字化应用,都会遇到哪些“坑”?
这两年,在AI技术的快速发展的大趋势下,推动了很多传统企业数字化转型的进程。 然而在实际落地过程中,可以看到,AI与业务的结合,往往“雷声大、雨点小”。 很多先进技术对企业的业务影响,总是“隔靴搔痒”,让业务方对智能化技术的实际价值踌躇不定!
2/12/2025 10:24:48 AM
数字化刘老师
能量驱动注意力:提升文本到图像扩散模型的语义对齐新范式
一眼概览该论文提出了一种 基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 机制,以解决文本到图像扩散模型中的 语义不对齐(semantic misalignment) 问题。 通过建模 上下文向量的后验分布,该方法能够自适应地调整语义上下文,实现更精准的文本引导图像生成,无需额外训练,并在 多概念生成、文本引导修复、图像编辑 任务上取得了优异表现。 核心问题当前的 文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。
2/12/2025 10:17:12 AM
萍哥学AI
全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU
想象一下,你正在观看吴恩达老师的机器学习课程,视频讲解清晰、动画直观,你很快掌握了核心概念,并能在考试中灵活应用,人类对这个过程再熟悉不过。 那么,如果AI也能这样学习呢? 图1 Video-MMMU提出知识获取的3大认知阶段这正是Video-MMMU试图回答的核心问题:AI能否通过观看视频获取并应用知识?
2/12/2025 10:12:00 AM
新智元
DeepSeek的爆火,背后是这些启发 ...
关注AI大模型技术的朋友们,在欢度春节的这些天,一定有被国产大模型底座DeepSeek的”横空出圈"霸屏了。 国产化大模型在算力更加“节约”的情况下,研发出了近乎和OpenAI GPT-4o同等“聪明”的大模型底座,极大地激励了国人对于AI技术研发的信心,同时也给国内外同行们带来了不少“焦虑”与“反思”。 与其他主流大模型相比,正如DeepSeek的中文名“深度求索”想表达的,它在解决具体回答任务时,不仅关注“端到端”的一问一答结果,更加关注这个答案是怎么得到的。
2/12/2025 10:06:25 AM
数字化刘老师
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind