AI
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。
英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王:1 秒 AI 转录 60 分钟音频,字错率低至 6.05%
英伟达最新推出 Parakeet TDT 0.6B,是一款先进的自动语音识别(ASR)模型,已在 Hugging Face 平台上完全开源。
谷歌推 I/O 版 Gemini 2.5 Pro 模型,AI 助力前端开发与复杂编程
Gemini 2.5 Pro 能处理文本、音频、图像、视频和代码等多种数据类型,开发者可通过 Gemini API 访问此模型。这次更新不仅提升了性能,还降低了功能调用错误率。
Lightricks推出视频新模型LTXV-13B,AI视频生成速度提升30倍、消费级硬件就能跑
Lightricks 公司宣布推出其最新的 AI 视频生成模型 ——LTXV-13B。 这款拥有130亿参数的模型在生成高质量 AI 视频方面速度提升了30倍,并且能够在普通消费级硬件上运行,而无需昂贵的企业级 GPU。 LTXV-13B 的核心技术是 “多尺度渲染”,这一创新方法显著提高了视频生成的效率。
联想发布“天禧超级智能体”:开启混合式AI新纪元
在今日举行的2025联想创新科技大会(Tech World)上,联想集团董事长兼CEO杨元庆携手“联想AI挚友”大张伟,共同探讨AI时代的发展。 他表示,AI正变得越来越强大,但不会取代人类,未来人类拼的是创造力,“要让AI负重前行,人类天马行空”。 大会上,联想正式发布面向个人和企业的“超级智能体”——天禧个人超级智能体。
ComfyUI品牌焕新升级,推出原生API节点
ComfyUI于2025年5月6日宣布完成品牌升级,同步推出原生API节点功能。 这一更新不仅为ComfyUI带来了全新的视觉标识,还通过集成11个主流在线视觉AI模型、65个新节点,显著提升了其图像和视频生成能力。 据官方介绍,用户无需自行申请API密钥,仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。
Asembia AXS25:人工智能将如何重塑处方药配送
在近期举办的 Asembia AXS25峰会上,行业专家们探讨了人工智能(AI)在药房运营中的潜力,尤其是在处方药履行的各个环节。 Harry Travis,The Travis Group 的总裁,在接受《药房时报》采访时,分享了他关于 “AI 对医疗和药房的影响” 的演讲。 他强调,要充分发挥 AI 的优势,药房行业必须解决监管和医保支付方面的挑战。
减肥人士的AI搭子来了!支付宝AI健康管家推出“减重专区”
减重人士有了专属的“AI搭子”!5月7日,支付宝AI健康管家正式上线“减重专区”,推出系列智能体指导用户科学饮食、健康锻炼,此外,还有7位三甲医院多科室减重医生在专区内开设了AI分身,助力全民体重管理。 目前,用户上支付宝搜“AI健康管家”,点击“服务”即可体验。 支付宝AI健康管家-减重专区在专区内,用户可以通过“饮食健康小助手“拍下日常饮食照片,交由AI识别热量并记录,智能体还能根据用户个人情况生成可坚持的、不饿肚子的科学饮食方案。
从BP到复盘全程接管,虎牙AI智能体“虎小Ai”亮相电竞直播
虎牙全新AI智能体“虎小Ai”上线,首次亮相即登陆虎牙最高等级的《英雄联盟》自制赛事“传奇杯”S3,进行全程实时AI解说,标志着直播行业首次将AIGC(生成式人工智能)技术深度融入电竞赛事直播流。 据介绍,“虎小Ai”不仅参与了比赛的实时解说,还覆盖了赛前选人、教练BP(Ban/Pick)分析、战术拆解、赛中解读以及赛后复盘等多个环节,全面实现了赛事直播全链路的AI赋能。 与传统解说相比,“虎小Ai”可提供更加系统化的数据分析与战术洞察,同时兼顾趣味性内容输出,提升观众观看体验。
马斯克 xAI 超算 Colossus 项目被指污染空气:预估 NOx 年排放 1200 至 2000 吨,当地居民强烈抗议
埃隆・马斯克(Elon Musk)旗下 xAI 公司在美国田纳西州孟菲斯市搭建 Colossus 巨型人工智能超级计算机,却引发了当地社区的强烈反对。
Cursor宣布免费向学生开放一年Pro会员,助力AI编程教育
AI编程助手Cursor于2025年5月6日宣布了一项重磅举措:即日起向全球学生免费开放为期一年的Cursor Pro会员。 这一福利旨在降低学生使用AI编程工具的门槛,助力编程教育与技术创新。 Cursor的免费政策覆盖包括中国在内的多个国家,学生只需通过教育邮箱和SheerID验证身份,即可享受价值192美元的Pro会员服务。
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!
英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
掷30亿美元,OpenAI史上最大收购案!
OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
Klavis AI 推出开源 MCP 集成,支持大规模用户和自定义工具
Klavis AI(YC X25)正式推出其全新的开源 MCP 集成解决方案,旨在为开发者提供一个高效、稳定的环境,以便于他们在 AI 应用中进行快速集成和部署。 该项目已经在 GitHub 上发布,吸引了大量开发者的关注,迄今为止获得了973颗星和140个叉子。 Klavis AI 的 MCP集成提供了一套全面的工具和资源,使得开发者能够在极短的时间内将自己的 AI 应用与生产就绪的 MCP 服务器和客户端相连接。
黄仁勋:未来中国 AI 芯片市场将突破 500 亿美元
在最近的一次采访中,英伟达首席执行官黄仁勋表示,中国的人工智能(AI)芯片市场在未来几年的规模预计将达到500亿美元。 他强调,美国企业若无法进入这一快速发展的市场,将会面临巨大的损失,这不仅关乎商业利益,也影响到就业和税收。 图源备注:图片由AI生成,图片授权服务商Midjourney黄仁勋在接受 CNBC 采访时指出,当前中国已成为全球最大的半导体市场,迫切需要美国公司的参与。
全新 AI 驱动的生命科学发现系统亮相,助力科研效率飞跃
在生物科技领域,人工智能的迅速发展正推动科研方法的革命。 近日,中国农业科学院与百图生科联合推出了基于大模型的 “发现系统”,这一系统有望大幅提升生命科学研究的效率和精度。 在5月6日的发布会上,来自行业内的专家们围绕如何实现 AI 在生命科学中的应用进行深入探讨。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
AI新词
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
AI设计
生成式AI
大型语言模型
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Copilot
Transformer
架构
MCP
编程
视觉