资讯列表
是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
LeCun 向 Alexandr Wang 汇报? Meta 内部:是的。 招募了一众 AI 大牛以后,Meta 能吃得消吗?
7/11/2025 11:02:00 AM
机器之心
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试,并在 LeetCode 挑战中表现出较高能力。 然而,将这些能力宣称与实际评测结果进行对比时,当前评估体系的深层问题便随之显现:比如尽管 GPT-4o 模型被冠以 “竞赛级” 头衔,甚至有声音称其算法水平接近 ACM 区域赛金牌选手,但实际在面对未经大量公开数据训练的、更高难度的信息学奥赛级别问题时,其通过率却往往低至个位数,与 985 级别高校 ACM 校队成员的平均通过率存在显著差距。 当部分评测宣称 Claude 3.5 Sonnet 可替代中级开发人员时,它在动态规划等高难度题型中错误率却高达 80% 以上,且无法独立完成需数学建模的复杂竞赛题。
7/11/2025 10:54:00 AM
机器之心
儿童性剥削材料监管新挑战,逼真 AI 视频肆虐网络
AI在线 7 月 11 日消息,纽约时报昨日(7 月 10 日)发布博文,报道称 AI 生成的儿童性剥削材料(CSAM)正在互联网上泛滥。 互联网观察基金会(IWF)和美国失踪与被剥削儿童国家中心的研究人员发出警告,这种新型 AI 生成的 CSAM 几乎与真实内容难以区分。 图源:IWFIWF 报告指出在 2024 年上半年,仅发现 2 个 AI 生成的 CSAM 内容,而在 2025 年上半年,发现了 1286 个 AI 生成视频,而且这些生成的视频具备很高质量,很难与真实内容区分。
7/11/2025 10:37:46 AM
故渊
Lora微调实操教程(上):人话版概念详解(附案例)
知识星球中,上个月有个关于让 LLM 学习公司内部业务和产品逻辑中,微调、RAG、提示词三者效果对比的提问。 我当时给出了一个经典的客服场景数据集构建示例,鉴于后续又陆续有人评论和私信来问,从这篇开始,专门写两篇内容来做个粗浅的分享。 之所以要分两篇内容,我想还是在做具体的微调案例演示前,把一些基本概念尽可能的讲清楚,这样感兴趣的话在复现下期案例和二开时,能够在自己的业务场景下对参数调优更有的放矢些。
7/11/2025 10:31:11 AM
韦东东
如何利用企业架构构建可扩展的数据和人工智能战略
概述随着数据和人工智能的爆炸式增长,以及通用人工智能(GenAI)的持续发展势头,企业正竞相确定自身的战略基点。 制定稳健的战略、治理模式和任责结构的压力空前巨大。 这不仅关乎数据和人工智能战略应该是什么,更关乎如何制定战略、由谁来领导,以及如何在整个企业范围内进行治理。
7/11/2025 10:23:34 AM
晓晓
重新审视 LLM:集体知识的动态映射与人机共舞
大家好,我是肆〇柒。 今天咱们不聊那些晦涩的技术。 今天的内容,源自我看到的一篇论文《In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge》。
7/11/2025 10:11:38 AM
肆零柒
“数据产品”究竟是什么以及它为何对AI代理至关重要
深陷数据泥潭,渴望洞察如今,许多组织都深陷数据洪流。 信息从销售系统、营销工具、运营数据库、网站以及无数其他来源涌入。 然而,尽管信息浩如烟海,要获得清晰可靠的业务答案却异常困难。
7/11/2025 10:00:03 AM
晓晓
一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案
1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全
Llama惨遭抛弃!Meta内部改用Claude写代码
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAILlama惨遭抛弃! 据Meta工程师透露,现在Meta内部开发都已经换掉了自家的Llama,改用Claude Sonnet写代码。
7/11/2025 9:26:42 AM
闻乐
AI 15分钟"逆向工程"桌面软件:79美元/月的"专有技术"竟然是这样...
用了Claude Code几天之后,我决定测试一下它的逆向工程能力。 结果让我彻底震惊了。 一个收费79美元/月的"专有"桌面软件,Claude Code用15分钟就完全拆解了。
7/11/2025 9:16:49 AM
阿丸笔记
AB实验新突破:携程提出图贪心分流算法,解决两大核心难题
作者简介小白,携程算法工程师,关注营销定价领域。 携程火车票部门为解决智行酒店商户侧AB实验中,预实验分流中遇到的分流不均、分流组流量交叉问题,提出了一种用于非用户端AB实验的分流算法,该算法通过优化的随机抽样模块与贪心交换模块,保证实验组之间多指标的相似性;通过图算法模块,降低实验组之间的流量交叉。 通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。
7/11/2025 9:16:00 AM
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:由于多模态输入(图像 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。
7/11/2025 9:15:00 AM
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。 然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
7/11/2025 9:10:00 AM
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。 当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。 尽管如此,谷歌似乎也并不在意被夺走的目光,接连对 Gemma 系列模型进行了更新。
7/11/2025 9:02:00 AM
搭积木一样做视频!Vidu Q1「参考生视频」功能实测
嗨大家好! 今天是你们的 Vidu 创意小助手阿真!. 我们使用 AI 生成视频都遇到过一些普遍痛点,比如角色难以保持统一,多个元素同框画风就不稳定,还有就是每个场景都要从零开始去构思分镜,费时又费力,最后视频画面出来效果还糊了吧唧的。
7/11/2025 7:19:47 AM
阿真Irene
资讯/神器/素材全都有!2025年6月设计素材周刊第四波
往期周刊:一、设计资讯. Figma 已申请在纽约证券交易所进行 IPO,股票代码为 "FIG". 预计 IPO 日期为 7 月下旬或 8 月初。
7/11/2025 7:08:23 AM
四喜茶茶