理论
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o
在AI领域,参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。 这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
5/27/2025 3:19:52 PM
新智元
Llama 论文作者“出逃”,14人团队仅剩3人,法国独角兽 Mistral 成最大赢家
他们大多去向了 Mistral,这家总部位于巴黎的 AI 初创公司,正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品:在 ChatGPT 和 PaLM 占据主流话语权的 2023 年,Meta 用一篇重量级论文和一组开放权重的大语言模型,意外地把开源阵营推上主舞台。 而那时,Meta 的 AI 科研团队 FAIR(Fundamental AI Research)也正处于高光时刻。
5/27/2025 3:16:38 PM
Dify携手亚马逊云科技 加速全球企业生成式AI应用规模化落地
简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成式AI技术与云服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式AI应用开发中的技术门槛和部署成本。 此外,依托亚马逊云科技遍布全球的基础设施与亚马逊云科技Marketplace,Dify将产品迅速推广至全球,为汽车、制造、零售快消、医疗健康和游戏等多个行业逾百家企业提供服务,助力企业释放生成式AI创新潜力的同时,实现商业价值增长。 Dify是一款发布于 2023 年的大语言模型应用开发平台,涵盖从Agent构建到AI Workflow编排、RAG检索、模型管理等核心技术栈,助力开发者快速实现AI应用落地。
5/27/2025 3:09:14 PM
Github MCP被曝严重安全漏洞!一个恶意问题,让开发者私有仓库裸奔,Agent成内鬼!检测方法来了!提防中招!
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP 虽然火,但安全问题其实一直不容忽视,就连大名鼎鼎的、与Claude 打得火热的 Github MCP 服务器也出事了! 刚刚得到消息, 昨天,一家名为Invariant 的安全的公司,突然披露了一个有关 GitHub MCP 集成(在 GitHub 上拥有 1.4 万星标)的严重漏洞。 图片这个漏洞允许攻击者通过精心构造的 GitHub Issue“劫持”开发者的智能代理(如 Claude Desktop 中的 Claude 4 Opus),并诱导它主动泄露私有仓库的数据。
5/27/2025 11:54:20 AM
云昭
OpenAI顶级工程师Philip Su:几个接地气的程序员职场发展经验
今天的文章发的有点晚,因为我又翻译了一期很长的优质内容。 现在每天信息真是太多了,我最近把一些群全部折叠,减少干扰。 要不然,每天开着微信,朋友圈、微信群、公众号、视频号,这些小红点把人的时间切的稀巴烂。
5/27/2025 11:52:07 AM
阿颖
这篇 AI Agent 漫游指南,带你建立全面的科技史观
作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM
红杉中国xbench全球首发,AI智能体真实战力揭榜!
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
5/27/2025 8:50:00 AM
刚刚,北大校友Lilian Weng自曝公司首个产品?一篇论文未发,估值却已90亿
OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng,刚刚转发了一个神秘产品——一个看似仪表盘的东西。 或许,这就将是公司即将打造的第一个爆品? 这个产品所揭示的理念,可谓十分惊人——在训练过程中,研究人员可以直接用它来手动调整所有的超参数了!
5/27/2025 8:40:00 AM
四页绝密文件曝OpenAI野心!ChatGPT占领人类心智,25年致命杀招公开
OpenAI真正的野心终于曝光! 最近,泄露的一份法律文件揭示了OpenAI的雄心:终极目标是「占领用户的AI心智」——ChatGPT就等价于AI,等价于智能体。 原始文件:,几个月前GPT-4o掀起「吉卜力风格」的热潮,或许也是OpenAI精心布局的一环。
5/27/2025 8:40:00 AM
RAG 架构实战:Fixed-Size Chunking(固定切块) 解析
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 RAG 架构的切块策略—Fixed-Size Chunking(固定切块)。 众所周知,在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统的过程中,文档切块策略往往决定了模型检索质量的上限。 切得好,信息命中更精准,生成回答更有上下文逻辑;切得差,模型则容易“答非所问”。
5/27/2025 8:35:00 AM
Luga Lee
可能是目前最好的3B多模态模型,有望做“AI作业帮”
作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
5/27/2025 8:30:00 AM
腾讯技术工程
LiteLLM:用于统一大模型访问的开源网关
译者 | 核子可乐审校 | 重楼摘要:LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。 不同提供商发布的大语言模型(LLM)层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。 每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。
5/27/2025 8:19:06 AM
核子可乐
如何访问和使用 OpenAI Codex?
译者 | 布加迪审校 | 重楼“软件工程正在发生变革;到 2025 年底,它将焕然一新。 ”Greg Brockman在OpenAI 发布会上的开场白为接下来的活动定下了基调。 OpenAI随后发布了Codex,这是一款旨在与开发者协同工作的云原生软件智能体。
5/27/2025 8:14:29 AM
布加迪
AI和分析如何改变供应链弹性
在一个充满波动性和前所未有的挑战的时代,供应链正面临着来自各方的巨大压力。 预见并缓解干扰的能力已成为企业成功的决定性因素。 “供应链比以往任何时候都更加关键,但也更加脆弱,”Qlik公司EMEA地区现场CTO马丁·汤姆斯强调,“从原材料短缺到地缘政治不稳定,从消费者需求的不断变化到自然灾害,任何干扰都可能破坏运营并损害信任。
5/27/2025 7:05:00 AM
Tom Chapman
在工作中与GenAI工具共享内容时要谨慎
我们在工作中使用GenAI来简化任务,但我们是否意识到其中的风险?据Netskope称,现在平均每个企业每月与AI工具共享的数据量超过7.7GB,75%的企业用户正在使用具有GenAI功能的应用程序。 GenAI的阴暗面事实上,89%的企业对AI的使用情况一无所知,这暴露了监督和控制方面的空白,更重要的是,71%的GenAI工具是通过个人非工作账户访问的。 即使使用了公司账户,也有58%的登录绕过了单点登录(SSO),这意味着安全团队无法看到员工使用的工具或共享的信息。
5/27/2025 7:00:00 AM
Sinisa
基于 DSPy 与 Pydantic 的自然语言参数提取框架(含code)
一、参数提取的重要性在人工智能驱动的现代应用中,自然语言交互已成为用户与系统沟通的主要方式。 从智能助手执行日程安排到企业级工作流自动化系统处理复杂指令,将“星期二下午2点与萨拉创建关于预算的会议”这类对话式命令转化为可执行的结构化参数,是实现人机高效交互的关键环节。 然而,随着用户指令复杂度的提升,传统的正则表达式匹配或关键词提取方法暴露出明显局限性——规则维护成本呈指数级增长、语义理解能力不足、难以应对句式变化等问题,使得构建一个鲁棒性强、可扩展的参数提取框架成为学术界和工业界共同关注的焦点。
5/27/2025 3:23:00 AM
大模型之路
LUD-YOLO:兼顾精度与速度的无人机小目标检测轻量新方案
一眼概览LUD-YOLO 提出了一种基于 YOLOv8 的轻量级小目标检测网络,结合自适应多尺度特征融合和稀疏注意力机制,在保持高检测精度的同时实现高效 UAV 部署。 核心问题现有 UAV 目标检测面临图像复杂背景、小目标难识别、设备资源受限等问题。 如何在有限算力和存储条件下实现高精度的小目标实时检测,是本文关注的关键挑战。
5/27/2025 3:20:00 AM
萍哥学AI
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型