AI
微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告
微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。
o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力
o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
人类工作面临替代威胁:OpenAI 被曝本月将发“博士级”超级 AI 智能体
科技媒体 axios 昨日(1 月 19 日)发布博文,报道称 OpenAI 公司有望在 2025 年 1 月发布具备“博士级别”的超级 AI 智能体,用于执行复杂的人类任务。
o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光
不久前,OpenAI在「圣诞12连更」中发布的最强推理模型「o3」,毫无疑问地惊艳了所有人。 尤其是对于新近发布的数学基准FrontierMath,其准确率相比o1直接翻了12倍。 图片要知道FrontierMath可是Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出的。
AI红队:构建安全AI只是梦想
负责微软100多个GenAI产品红队测试的团队得出结论,构建安全可靠的AI系统的工作永远不会完成。 本周发表的一篇论文中,包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作,并提出了八项建议,旨在“使红队测试工作与现实世界的风险相一致”。 论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道:“随着GenAI系统在越来越多领域的应用,AI红队测试已成为评估这些技术安全性和可靠性的核心实践。
港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。
阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用
阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
知乎直答:AI 搜索产品从 0 到 1 实践探索
一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑
InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
Github热门机器学习笔记:「从零构建大型语言模型」
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家推荐一份GitHub上很火的机器学习学习笔记《从零构建大型语言模型》,目前已经收获1.4K stars,,这份笔记完美展示了从零构建LLM的技术路线图,既有理论深度,又包含实践要点。 每个核心概念都配有清晰的示意图,便于理解和实践。
o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题
「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法
降低扩散模型生成的计算成本,性能还保持在高水平! 最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前,扩散模型在生成任务中受到了广泛关注。
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
代码生成「神⋅提示」,比新手程序员快100倍!地位堪比make it more X
2023年11月,在ChatGPT支持DALL-3功能后,一个爆火的图像生成玩法是,不断迭代提示词「make it more X」,生成的图片越来越抽象。 圣诞老人越来越严肃把这个思路用在LLM任务上,比如代码生成,会怎么样? 最近,BuzzFeed的高级数据科学家Max Woolf在博客上分享了一个实验,通过设计不同的提示词、不断迭代模型输出,最终实现代码性能的100倍提升!
AI 变革音乐创作:未来体验更像游戏,更具互动性
IT之家援引 Shulman 观点,AI 将让听众与音乐的关系更具互动性和参与性,就像玩电子游戏一样,不再是被动聆听,而是主动参与,AI 音乐创作工具将带来类似多人游戏的体验,让朋友一起创作音乐变得更加有趣。
深度学习图像增强方法全总结!
一、什么是图像增强? 图像增强是指通过一系列技术和方法对图像进行处理,以改善其视觉效果和特征表现。 1.
OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局
科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉