AI
为何无头浏览器是 AI Agent 的关键技术
Browserbase CEO Paul Klein IV 认为每个 AI 代理都需要一个无头浏览器作为与传统互联网交互的桥梁。 Browserbase 已经转型为“适用于您的 AI 的 Web 浏览器”,并获得了 4000 万美元的 B 轮融资。 无头浏览器在 AI 代理中用于信息收集和任务执行,主要有视觉 Web 代理和文本 Web 代理两种类型。
OpenAI员工爆料:已抢先体验GPT-5!7月上线,疑似完全多模态
就在今天,关于GPT-5的讨论再度火了,X上的神秘爆料满天飞。 起因是这样的,Sam Altman在X上关注了了一个叫Yacine的人。 这个人说,自己刚刚试用了一个AI公司的大模型,体验非常震撼。
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o
Agent能“看懂网页”,像人类一样上网? 阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。 只要输入指令,它就可以帮你上网搜索、做攻略,实现自主信息检索代理和类似深度研究模型的推理。
苹果出手!改进GRPO,让dLLM也能高效强化学习
最近,扩散语言模型(dLLM)有点火。 现在,苹果也加入这片新兴的战场了。 不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mercury 也已经正式上线(此前已有 Mercury Coder)。
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
在 2025 年 I/O 开发者大会上预览发布后,谷歌已正式推出 Gemma 3n 端侧多模态模型,支持在手机、平板和笔记本电脑上本地运行,处理音频、文本、图片和视频多种数据类型。
让Agent审查代码,第一版天崩!AI原生Github创始人血泪:话痨、误判,别幻想万能代理,快让AI闭嘴!网友:有效,但没必要
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“我们用 AI 来做代码审查,结果它比我老板还话多。 ”——这句话可能是很多开发者的真实写照。 最近,一篇名为《How we made our AI code reviewer stop being so noisy》的博客引发了热议。
谷歌重启 AI 驱动的 “Ask Photos” 功能,提升搜索速度!
近日,谷歌宣布其 AI 驱动的 “Ask Photos” 搜索工具将重新开放访问,并对该功能进行了一系列改进。 在此之前,谷歌曾悄然暂停了该工具的推出,以便进一步优化用户体验。 “Ask Photos” 工具由谷歌的 Gemini AI 模型提供支持,用户可以通过提出复杂的问题来快速找到所需的照片。
第一次用Cursor?四步骤快速安装+五大功能界面说明
Cursor 是一款长得像Visual Studio Code实际上也确实是在人家基础上二次开、塞进AI 功能的程序编辑器,让写整个开发流程都能靠AI 一路加速。 使用Cursor 可以一键导入原本你在VsCode中已经设置过的主题、快捷键、extensions,不用再重新设置;它也整合了像 GPT 和Claude等顶尖AI 模型,能依上下文生成整段功能代码。 写程序写到一半遇到bug,只要把错误讯息丢给Cursor,AI 就会协助分析、提供建议,甚至重构程序代码、帮你优化结构,让整体更好维护。
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。 研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
端侧设备迎来了新架构的 AI 模型。 本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。 模型、权重:::,Gemma 3n 代表了设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
91岁零基础!硬核爷爷用AI两天爆肝应用,350美元玩转氛围编程
一位91岁老人用Claude和Replit编写了一个复杂的教会活动管理系统! 退休电气工程师John Blackman分享了他如何用Claude和Replit构建应用程序。 John从没碰过代码,但在孙子推荐下,只花两天就搞定了这个教会志愿者管理系统。
超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS
今天凌晨,知名开源平台Black Forest开源了,文生图模型FLUX.1-Kontext的开发者版本。 该版本主要专注于图像编辑任务,支持迭代编辑,在各种场景和环境中都能出色地保留角色特征,还允许进行精确的局部和全局编辑,例如,用户想给一个人脸加上胡子或者更改衣服穿着、场景,FLUX.1-Kontext都能轻松实现。 简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一键P图。
五款大模型考「山东卷」,Gemini、豆包分别获文理第一名
果然,高考已经快被 AI 攻克了。 近日,5 款大模型参加了今年山东高考,按照传统的文理分科方式统计:豆包 Seed 1.6-Thinking 模型以 683 分的成绩拿下文科第一,Gemini 2.5 Pro 则凭借 655 分拔得理科头筹。 测评来自字节跳动 Seed 团队。
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调;反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果以及3D操作策略的效率? 中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答!
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。 第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为其在字节跳动Seed实习期间完成。 第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其答案。
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型
谷歌DeepMind Alpha家族又双叒登上Nature报道,这次瞄准的是DNA变异。 现在只需1秒,就能精确定位基因组序列变异。 据Nature最新报道,谷歌DeepMind团队目前推出了突破性生物模型AlphaGenome。
推理越多,幻觉越重?多模态推理模型的「幻觉悖论」
在多模态大模型的飞速发展中,R1 系列多模态推理模型凭借显式的长链推理机制,在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。 然而,研究发现,随着推理链条的加长,这类模型的视觉感知能力却呈现出明显下滑的趋势,逐渐转而依赖语言先验进行「脑补」,生成内容也越来越容易脱离图像本身,甚至出现凭空捏造的幻觉现象。 这一「推理增强—感知削弱」的悖论,凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉