理论
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。 如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗? 这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。
多智能体系统不是银弹
一、背景介绍可以了解到多智能体系统,正是通过独特的架构设计,让 AI 突破单智能体的能力边界,实现更复杂的任务协作。 多智能体组成虚拟团队,模拟人类专业协作模式,以解决超越单智能体能力边界的复杂问题。 image.png在众多多智能体框架中,LangGraph 的多智能体架构设计极具代表性,堪称实践典范。
真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试
近期,懂车帝的《懂车智炼场》栏目对量产自动驾驶系统的NOA辅助驾驶功能进行了安全关键场景测试。 结果显示,在黑夜施工工地、高速公路前方车辆发生事故以及障碍物后突然驶出车辆等高风险场景中,目前尚无任何系统能够在测试中做到完全避免事故。 这类安全关键场景在真实道路上虽不常见,但一旦发生,可能导致人员伤亡或严重交通事故。
科学界论文高引第一人易主!AI站上历史巅峰
魔镜魔镜,谁是有史以来被引用次数最多的科学家? 答案:深度学习三巨头之一、图灵奖得主Yoshua Bengio。 如你所见,之所以提出这个问题,其实是因为相关消息正在引起热议ing。
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
能自动操作手机、电脑的智能体新SOTA来了。 通义实验室推出Mobile-Agent-v3智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。 它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。 然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的“题库”逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶尖AI的真实能力? 为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将“动态基准”这一理念与不断更新的科学前沿相结合,提出了MAC(多模态学术封面)基准:既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢?
2025临界点:AI智商超越人类,经济规则即将改写
在人类经济活动数字化的浪潮中,互联网和移动互联网走完了前两步,正在浮现中的AI经济,可能带来更大的变化。 人类经济活动正在数字化:1946年,人类发明了计算机,这标志着人类的计算经过几千年的演化,从手动到机械,终于到了电子形式。 计算机的出现,把计算能力提高到了远超过人脑计算能力的程度。
刚刚,马斯克将OpenAI和苹果告上法庭:指控ChatGPT垄断iPhone,自家Grok被打压
当地时间周一,马斯克向 OpenAI 和苹果「开炮」了! 据多家外媒报道,马斯克旗下 xAI 一纸讼书,控告它们通过 ChatGPT 和苹果 App Store 进行非法垄断。 在一则推文中,马斯克表示,自家 Grok 有 100 万条评论,评论分高达 4.9,但苹果仍然拒绝在任何排名中将 Grok 列入其中。
Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro
刚刚,大神Karpathy发布全新Vibe Coding指南! 在这份指南中,Karpathy不死磕单一模型,而是集众模之所长,总结出了一套AI编程的三层结构:Cursor——主要负责自动补全与小范围代码修改,高效传达任务意图。 Claude Code/Codex——用于实现较大功能块,快速原型开发和跨领域代码尝试。
开发者每日分心1200次——MCP如何破解这一难题
软件开发人员的大部分时间并非用于编写代码,近期行业研究发现,实际编码仅占开发人员工作时间的16%,其余时间则被运营和支持性任务所消耗。 随着工程团队面临“用更少的资源做更多的事”的压力,以及CEO们吹嘘其代码库有多少是由AI编写时,一个问题依然存在:如何优化工程师正在处理的其他84%的任务?让开发人员保持最高效的状态影响开发人员效率的一个主要因素是在工具和平台之间的切换:即在构建和交付软件所需不断增多的工具和平台之间频繁切换。 哈佛商业评论的一项研究发现,普通数字工作者每天要在应用程序和网站之间切换近1200次,每一次中断都很重要。
Qwen-Image-Edit:千问编图,这次真的很强
在图像生成赛道上,新模型层出不穷,但真正能把“图像编辑”做得又稳又强的,还屈指可数。 比如上周刚发布的 Qwen-Image-Edit 真的很强! 这是 Qwen-Image 的图像编辑版本,基于千问自研的 20B 参数 Qwen-Image 模型进一步训练而成,它不仅延续了 Qwen-Image 独特的 文本渲染能力,更将这一能力拓展到图像编辑领域,实现了对图片中内容的精准增删改。
揭秘大语言模型的“开挂神器”:ReAct 框架与推理应用
大语言模型看似神通广大,但其实也有犯迷糊的时候。 今天就带大家揭开一个能让大语言模型瞬间“开挂”的秘密武器——ReAct 引导式学习框架,还有超厉害的 ReACT 推理应用。 想知道它们到底有多神?
RAG(检索增强)当前主要的问题以及评估方法
RAG(检索增强生成)虽然极大地提升了大型模型(LLM)回答问题的准确性和时效性,但在实际落地过程中,它远非一个完美的解决方案。 下面,我们将详细梳理当前 RAG 系统遇到的主要问题,以及业界为解决这些问题而探索出的先进解决实践和涌现出的优秀开源产品。 一、 当前 RAG 系统面临的核心问题RAG 的问题可以归结为一句话:“垃圾进,垃圾出”(Garbage In, Garbage Out)。
Java融合AI,手把手教你整合大语模型
人工智能(AI)正加速重构各行业发展模式,大型语言模型(LLM)无疑是这场技术革命的核心驱动力。 对于Java开发者而言,如何将LLM的强大能力融入现有应用,是拓展技术边界、提升产品价值的重要方向。 本文聚焦LLM与Java集成的核心流程,从实际操作步骤、工具选型到行业最佳实践展开讲解,为Java开发者提供清晰的入门路径,助力快速落地AI集成需求。
FastAPI开发AI应用教程:新增用户历史消息
本文将深入介绍如何在 FastAPI AI 聊天应用中实现用户历史消息功能,当用户切换助手,刷新页面时,都可以保留当前会话历史消息。 图片本项目已经开源至 Github,项目地址::本文全文约一万字,看完约需 15 分钟。 文章概述重点讲解每个助手区分 sessionid、获取历史消息接口以及发送消息时携带上下文信息的核心技术实现。
AI正在颠覆DevOps生命周期的六种方式
AI重塑DevOps! 自动修复、预测性监控革新运维;GenAI驱动代码生成与优化,加速开发;智能测试自动化提升效率;AI优化基础设施和工具链(CI/CD),实现数据驱动的战略规划,速享AI红利! 译自:6 Ways AI Is Upending the DevOps Lifecycle[1]作者:Hannah CulverAI革命并非敲响DevOps的大门,而是已经在重新装修房子。
CC吊炸天的秘密找到了!旧金山初创CEO自曝数月研究:CC主控制仅1个循环,大量使用小模型,惊呼:简单到爆,肝一份深度复刻指南
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)世界上最好用的编程工具,Claude Code,又被人深度研究了! 它背后,竟然只保留了一个主控制循环,系统逻辑竟然简单到爆。 管AI代理如此复杂,但这款最令人愉悦的AI编程工具,却保持了极其简单的方式。
AI价格大战又来了!Google推250美元AI套餐,国产编码模型强势挑战
昨天收到一封Google的邮件,看到内容的时候我有点懵——AI Ultra套餐,249美元/月。 说实话,刚开始我以为是钓鱼邮件。 一个月249美元,这是要把AI变成奢侈品的节奏?
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉