模型
英伟达开源「描述一切」模型,拿下7个基准SOTA
图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
4/27/2025 8:30:00 AM
机器之心
如何利用网络爬虫进行大规模LLM数据收集
大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。 想要打造一个能够理解真实世界的模型,就必须获取来自真实世界的信息,而互联网无疑是海量数据的主要来源。 本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据,为人工智能模型的训练筑牢坚实基础。
4/27/2025 4:05:00 AM
大模型之路
不要小看线性回归!
在数据领域初学时,大家常听到的一个建议是:不要试图把整个机器学习都学透——因为它实在太庞大且变化太快,根本不现实;而更应该聚焦在少数几个与数据工作日常紧密相关的模型,比如决策树、支持向量机,当然,还有线性回归。 线性回归本身就是一个非常实用的模型,更有意思的是,许多其他机器学习模型其实都是在它的基础上稍作改动而来。 本文的目的,就是想让大家看到这一点。
4/27/2025 4:02:00 AM
你的 MCP 调用正在成为系统的"后门",这个解决方案刻不容缓!
在人工智能快速发展的今天,大型语言模型 (LLM) 已成为提升工作效率的重要工具。 随着 MCP(Model Context Protocol)的出现,我们有了一种标准化的方式来与 AI 模型交互。 然而,当需要同时使用多个 MCP 资源服务器时,管理和使用这些服务不仅变得复杂,安全问题也越发严重。
4/27/2025 3:34:00 AM
PIG AI
CVPR2025 | 即插即用!清华国科大等推出视觉微调框架,仅需调整5%骨干网络参数
仅调整5%的骨干网络参数,就能超越全参数微调效果? 还是在实例分割、目标检测、旋转目标检测这样的经典视觉任务场景。 这是来自清华、国科大、上海交大、阿里巴巴的一项研究,相关论文已被CVPR2025接受。
4/26/2025 4:44:45 PM
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法
在大模型时代,视觉语言模型(Vision-Language Models, VLMs)正在从感知走向推理。 在诸如图像问答、图表理解、科学推理等任务中,VLM不再只需要「看见」和「描述」,而是要能「看懂」和「想清楚」。 然而,当前主流的推理能力提升方法普遍存在两个问题:1.
4/26/2025 9:25:00 AM
新智元
AI入侵学术圈,超700篇顶刊论文暴雷!科学侦探揭秘真相,登Nature头版
「截至我最后的知识更新」,「重新生成响应」,「作为一个AI语言模型」......这些短句,已经成为顶刊论文中的常态。 2024年,一篇发表在Radiology Case Reports上论文,因文中出现了「我是一个AI语言模型」,直接被撤稿。 令人震惊的是,这句话不仅没有引起作者注意,更逃过了编辑、审稿人、排版人的审查。
4/25/2025 10:57:39 AM
新智元
刚刚,OpenAI推出「轻量级」Deep Research,免费用户也能薅羊毛!
刚刚,OpenAI 宣布推出「轻量级」版本的 Deep Research,免费用户也可以使用! 轻量级版本由 OpenAI 的 o4-mini 模型提供支持,而之前的 Deep Research 使用的是更强大的 o3 模型(或其变体)。 OpenAI 表示,虽然响应通常会更简短,但仍能够维持您所期待的深度和质量。
4/25/2025 10:26:19 AM
机器之心
RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」
近年来,RLVR(可验证奖励的强化学习)训练大模型在数学、代码等各项任务中表现惊艳,大模型的推理能力快速提升,强化学习因而被视为重要的推手。 然而,其中直指核心的重要问题却悬而未决:强化学习真的能让大模型获得超越基础模型的新推理能力吗? 清华大学LeapLab团队联合上海交通大学开展的最新实证研究,通过实验现象揭示了一个值得关注的问题:当前的 RLVR 方法似乎尚未突破基座模型的能力上限。
4/25/2025 9:22:44 AM
机器之心
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。 实验过程中,强化学习的数据均由被训练的模型自身生成。
4/25/2025 9:20:00 AM
北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断
近年来,智能三维形状生成(3D AIGC)技术迅速崛起,正成为推动数字内容创作革新的关键力量,特别是在游戏、影视、虚拟现实和工业设计等领域表现出巨大的应用潜力。 随着技术的不断进步,三维内容的生成质量与效率持续提升,成为业界与学界广泛关注的焦点。 最近,北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。
4/25/2025 9:15:00 AM
量子位
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后,测试时缩放(TTS)技术功不可没。 测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
4/25/2025 9:12:00 AM
机器之心
突发!OpenAI免费开放Deep research,超强AI Agent
今天凌晨4点30,OpenAI推出轻量级版本的Deep research功能提高当前的速率限制,以扩大Plus、Team和Pro用户的使用范围。 值得一提的是,从今天开始免费ChatGPT用户可以使用Deep research,并且支持最新的o4-mini模型。 下面「AIGC开放社区」就用免费版为大家展示一下Deep research的免费功能。
4/25/2025 9:09:00 AM
AIGC开放社区
从模型原理到代码实践,深入浅出上手 Transformer,叩开大模型世界的大门
作者 | Plus一、序言作为非算法同学,最近被Cursor、DeepSeek搞的有点焦虑,同时也非常好奇这里的原理,所以花了大量业余时间自学了Transformer并做了完整的工程实践。 希望自己心得和理解可以帮到大家~如有错漏,欢迎指出~本文都会以用Transformer做中英翻译的具体实例进行阐述。 二、从宏观逻辑看Transformer让我们先从宏观角度解释一下这个架构。
4/25/2025 9:00:00 AM
腾讯技术工程
DeepResearch轻量版今日面向免费用户开放,实测一波,秒生成,太快了!
刚刚3个小时前,OpenAI推出轻量级版本的Deep research功能提高当前的速率限制,以扩大Plus、Team和Pro用户的使用范围。 值得一提的是,从今天开始免费ChatGPT用户可以使用DeepResearch,并且支持最新的o4-mini模型。 我这里实测了一下,中美两国人形机器人的市场现状和趋势分析,要求生成一份深度分析报告。
4/25/2025 8:44:04 AM
英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落
NVIDIA最新发布Describe Anything 3B(DAM-3B)模型,专门针对图像和视频中特定区域的详细描述难题设计。这款多模态大语言模型能通过点、边界框、涂鸦或掩码等方式锁定目标区域,生成贴合上下文的描述文本。
4/24/2025 1:40:26 PM
故渊
LLM 推理引擎之争:Ollama or vLLM ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的模型推理框架。 在人工智能领域,模型的推理能力是衡量其性能的核心指标之一,直接影响其在复杂任务中的表现。 随着自然语言处理(NLP)和大规模语言模型(LLM)技术的迅猛发展,众多创新模型不断涌现,为开发者提供了多样化的选择。
4/24/2025 10:26:40 AM
Luga Lee
刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元
上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。 就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。 这也意味着,从今天开始,全世界的开发人员都可以使用 ChatGPT 强大的图像生成功能了。
4/24/2025 9:38:56 AM
机器之心
资讯热榜
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
微软发布 700 个真实 AI 案例,探索智能化工作新模式
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
苹果将 ChatGPT 和其他 AI 模型引入 Xcode
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构