AI
迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang
当硅基生命开始觉醒:人类与仿生智能体的共生困局
从科幻到现实:人形机器人的进化之路在纽约现代艺术博物馆的玻璃展柜中,第五代表情机器人Emo正对着镜子练习微笑。 通过深度学习算法,这个搭载48个微型电机的金属头颅能在600毫秒内捕捉人类表情特征,并组合出532种情绪表达。 "我们让机器人观看YouTube视频自主学习,"项目负责人展示着训练日志,"它们正在建立自己的表情数据库,就像婴儿通过观察父母学习社交"。
3/13/2025 10:09:48 AM
D1net
14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位
多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合
在实际应用过程中,闭源模型(GPT-4o)等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。 与之相反的是,在General VQA任务上表现最好的开源模型(如InternVL2-78B)在面对开放式、需要知识储备的问题时,表现不尽人意:△InternVL2-78B和GPT-4o在回复的完备性和美观性上有较大差距上述现象引发了上海交大、上海AI Lab等联合团队的思考。 他们首先猜测:MLLM的回复质量下降可能是因为经过了多模态数据训练之后,LLM本身的能力退化。
3/13/2025 9:47:29 AM
量子位
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元
谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini
谷歌Gemma 3全家桶来了! 刚刚,在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。 此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。
3/13/2025 9:12:35 AM
新智元
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发
作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程
Anthropic CEO:半年内 AI 将编写 90% 的代码,一年内几乎包揽全部
Anthropic 首席执行官达里奥・阿莫代伊(Dario Amodei)强调软件工程领域极易被 AI 自动化。阿莫代伊表示:“如果看编程这一领域,这是 AI 进展最快的地方。我们发现,距离 AI 编写 90% 代码的世界可能只有 3 到 6 个月的时间,而在 12 个月后,我们可能会进入一个 AI 几乎编写所有代码的世界。”
3/12/2025 9:00:52 PM
远洋
法国出版商和作家协会起诉 Meta,称其“大规模盗窃”版权内容训练 AI 模型
法国出版商和作家协会近日对 Meta 提起诉讼,指控其未经授权使用受版权保护的内容训练 AI 模型。这是法国首次针对 AI 巨头提起此类诉讼,而在美国,Meta 也面临多起类似诉讼。这场法律战或将为 AI 行业带来深远影响。#Meta版权纠纷 #AI法律挑战
3/12/2025 8:27:22 PM
远洋
马来西亚Maxis与华为携手推动智能网络运营的AI与ML技术应用
马来西亚电信公司 Maxis 与华为技术(马来西亚)有限公司宣布达成战略合作,旨在通过人工智能(AI)和机器学习(ML)技术,提升网络运营的智能化水平。 这一合作不仅是为了加速 Maxis 的数字化转型,更是希望通过智能化的自我优化网络技术,提升用户体验和运营效率。 根据 Maxis 的声明,此次合作将涵盖一个全面的联合项目,致力于将 AI 和 ML 技术深度整合进 Maxis 的网络运营中。
3/12/2025 4:56:00 PM
AI在线
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。 报告将豆包文生图模型称为 Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。 从模型能力看,Seedream 2.0 是原生的中英双语图像生成基础模型,拥有很强的美感和文本渲染效果,与目前即梦上的文生图主力模型特性匹配。
3/12/2025 2:40:53 PM
机器之心
32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero
Hugging Face的Open R1再度升级! Hugging Face的Open R1是一个社区驱动的项目,目标是创建一个完全开源的DeepSeek-R1版本。 目前,已有模型如OlympicCoder-32B和数据集如codeforces发布,显示了项目的进展。
3/12/2025 1:55:05 PM
新智元
AI现实动物森友会,NVIDIA携手国际组织助力野生动物保护
编辑丨toileter不久前,世界野生动植物之日方才过去。 在如今世界各地对于野生环境的保护日益重视的发展现状中,利用 AI 来协助人们进行自然环境保护的举措理所当然地成为了更具影响的手段。 在联合国估计超过 100 万个物种面临灭绝威胁之际,这是一项维持生态系统和支持生物多样性的关键工作。
3/12/2025 12:07:00 PM
ScienceAI
10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜
音乐创作,尤其是完整歌曲的生成,一直是人工智能领域的一大挑战。 Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。 但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。
3/12/2025 10:41:34 AM
新智元
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
大型语言模型(LLMs)目前仍然很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务,有研究工作探索了使用预先构建的外部工具来增强LLMs处理复杂任务的能力,但这些方法需要对模型进行微调或额外训练以实现工具的集成,在不同任务之间难以灵活适应。 现有的方法要么依赖于静态的、预定义的工具集,要么缺乏高效的工具选择和规划机制,这种低效性会导致任务执行出错、计算成本增加,以及在应用于新领域时适应性受限。 传统增强LLMs的方法包括少量样本提示(few-shot prompting)、思维链(chain-of-thought reasoning)以及与外部工具接口的功能调用API;有的框架如LangChain和AutoGen允许LLMs够使用外部资源,但通常智能用于指定应用场景或需要大量的预配置,没有提供一种统一的多步骤规划和执行方法,因此在处理复杂推理问题时效果不佳。
3/12/2025 10:38:05 AM
新智元
李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄
对人类来说轻而易举的事,对机器人来说很难。 机器人能做家庭管家,照顾好一家人吗? 要做「家庭管家」,机器人真正需要什么技能?
3/12/2025 8:54:46 AM
新智元
百度AI开源表格识别模型PP-TableMagic
3月11日,百度AI宣布开源新一代表格识别解决方案PP-TableMagic,为表格结构化信息提取领域带来重大突破。 PP-TableMagic旨在解决传统表格识别技术在复杂场景下的局限性,通过创新的多模型组网架构,实现了高精度的端到端表格识别,并支持全场景高定制化的模型微调。 在当今数字化时代,大量重要表格数据仍以非结构化形式存在,如扫描文档中的统计表图片和PDF文件中的金融财报数据。
3/12/2025 8:27:00 AM
AI在线
浅谈 AI 对数据库生态带来哪些影响
近期,AI(主要是大模型)大火,很多人也都非常关注。 自己在尝试使用同时,也在思考AI会对数据库有哪些影响? 这些影响可能会是全方面的,包括对人、公司、行业等等。
3/12/2025 7:35:59 AM
韩锋
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
LLaMA
Copilot
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind