AI
在北京,英伟达透露了人形机器人的未来:50年发展路缩至5年,靠“三台计算机”
2025,人形机器人量产元年。 CES上老黄带着14台机器人亮相这一幕刚过去不久,SemiAnalysis分析师的一条预测再次引起热议。 英伟达最终将成为一家机器人公司,而不仅仅是半导体公司。
1/20/2025 4:27:56 PM
量子位
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。
研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。
1/20/2025 4:24:35 PM
远洋
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。 此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。
1/20/2025 4:17:58 PM
机器之心
小红书AI翻译加急上线,网友评论区玩起Prompt,背后大模型被扒出
网友盛赞“最有用的大模型应用”,小红书AI翻译功能上线了! (Doge)一整个实测发现,实在是太好用了。 翻译软件做到的它能做,翻译软件不能做的它也能做。
1/20/2025 3:50:00 PM
量子位
惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!
出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
1/20/2025 1:37:16 PM
微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告
微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。
1/20/2025 1:10:22 PM
量子位
o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力
o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位
人类工作面临替代威胁:OpenAI 被曝本月将发“博士级”超级 AI 智能体
科技媒体 axios 昨日(1 月 19 日)发布博文,报道称 OpenAI 公司有望在 2025 年 1 月发布具备“博士级别”的超级 AI 智能体,用于执行复杂的人类任务。
1/20/2025 12:12:52 PM
故渊
o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光
不久前,OpenAI在「圣诞12连更」中发布的最强推理模型「o3」,毫无疑问地惊艳了所有人。 尤其是对于新近发布的数学基准FrontierMath,其准确率相比o1直接翻了12倍。 图片要知道FrontierMath可是Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出的。
1/20/2025 12:09:18 PM
新智元
AI红队:构建安全AI只是梦想
负责微软100多个GenAI产品红队测试的团队得出结论,构建安全可靠的AI系统的工作永远不会完成。 本周发表的一篇论文中,包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作,并提出了八项建议,旨在“使红队测试工作与现实世界的风险相一致”。 论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道:“随着GenAI系统在越来越多领域的应用,AI红队测试已成为评估这些技术安全性和可靠性的核心实践。
1/20/2025 11:24:56 AM
Paul Barker
港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。
1/20/2025 11:15:00 AM
AIGC Studio
阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用
阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio
知乎直答:AI 搜索产品从 0 到 1 实践探索
一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
1/20/2025 10:40:08 AM
王界武
东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑
InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio
LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
1/20/2025 10:23:00 AM
AIGC Studio
Github热门机器学习笔记:「从零构建大型语言模型」
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家推荐一份GitHub上很火的机器学习学习笔记《从零构建大型语言模型》,目前已经收获1.4K stars,,这份笔记完美展示了从零构建LLM的技术路线图,既有理论深度,又包含实践要点。 每个核心概念都配有清晰的示意图,便于理解和实践。
1/20/2025 9:41:29 AM
AIGC Studio
o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题
「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元
扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法
降低扩散模型生成的计算成本,性能还保持在高水平! 最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前,扩散模型在生成任务中受到了广泛关注。
1/20/2025 9:20:00 AM
量子位
资讯热榜
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
微软发布 700 个真实 AI 案例,探索智能化工作新模式
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
苹果将 ChatGPT 和其他 AI 模型引入 Xcode
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
Meta
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构