AI在线 AI在线

开源

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

Meta 首席科学家杨立昆痛批硅谷“常见病”:一种错误的优越感

“科技的进步往往是通过更多有才华的人参与,并且相互分享他们的创新成果,才能加速的。”
2/1/2025 11:33:14 PM
清源

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

中国联通发布元景思维链大模型:性能超越GPT-4o 比肩OpenAI o1

今日,中国联通宣布,其旗下联通数据智能有限公司正式发布了元景思维链大模型。 这一创新成果已在GitHub、魔搭、始智等多个社区全面开源,标志着中国联通在人工智能领域迈出了重要一步。 元景思维链大模型作为中国联通推出的业界首款央企开源通用思维链大模型,展现了强大的慢思考能力和多学科、多场景的通用推理能力。
1/24/2025 1:59:00 PM
AI在线

解决文生图质量和美学问题,字节跳动提出VMix:多维度美学控制方法,一键提升图像美学

本文经AIGC Studio公众号授权转载,转载请联系出处。 为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。 论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。
1/22/2025 9:48:07 AM
AIGC Studio

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

昨晚,大模型领域再次「热闹起来」,月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。 而最近大热的 DeepSeek 正式推出了 DeepSeek-R1,同样在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。 去年 12 月开源的大模型 DeepSeek-V3 刚刚掀起了一阵热潮,实现了诸多的不可能。
1/21/2025 11:53:53 AM
机器之心

OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。
1/21/2025 10:20:00 AM
AIGC Studio

微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。
1/20/2025 1:10:22 PM
量子位

Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源!

Open-Sora是一项致力于高效制作高质量视频的计划。 目的是让所有人都能使用模型、工具和所有细节。 通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
1/10/2025 9:40:00 AM
AIGC Studio

CMU等曝光GitHub「地下产业链」!450万个Star都是刷的

什么? Github的star居然都能是假的了,甚至数量达到了惊人的450万! 大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。
1/6/2025 8:50:00 AM
新智元

反手就是开源!英伟达豪掷7亿美元收购专攻GPU初创Run:ai

就在刚刚,英伟达正式完成了对以色列AI初创Run:ai的收购。 对于AI基础设施来说,Run:ai的软件至关重要——通过动态调度、GPU池化、GPU分片等功能,硬件资源的使用效率可以得到大幅提升,甚至可以实现10倍的工作负载。 图片不仅如此,随后Run:ai还计划将他们的软件开源。
12/31/2024 12:42:17 PM
新智元

奥特曼公布OpenAI新年目标:AGI/Agent排前列,4o/Sora要更新,还有……

狂奔的2024年进入最后一天,奥特曼新年目标来了~坏消息:没有GPT-5,开源依旧不在考虑范围内……前几日奥特曼发帖子收集大伙儿愿望,引得420万网友围观,评论区留下1万个心愿单。 你希望OpenAI在2025年开发/修复什么? 图片就在刚刚,参考大家建议后,OpenAI新年目标公布了。
12/31/2024 10:48:04 AM

近1.4万星,腾讯混元大模型开源成绩单公布,多次登顶开源趋势热榜

记者获悉,腾讯云副总裁,腾讯混元大模型负责人刘煜宏在2024开放原子开发者大会暨首届开源技术学术大会上表示,腾讯将开源协同作为公司的核心技术战略,积极推动内外部技术开源共享。 腾讯混元大模型语言大模型、文生图大模型、文生3D大模型以及文生视频大模型等多个模态模型均已开源,未来大模型各版本也将进一步开源,与社区开发者一起共同推动技术生态繁荣发展。 (腾讯云副总裁,腾讯混元大模型负责人 刘煜宏)腾讯混元大模型的开源模型已经全面覆盖文生文、文生图、文生3D以及文生视频多个模态,是开源系列模型中较全的,其模型性能也得到了开源社区的高度认可,总GitHub Star(星星)数量近1.4万颗,并且多次登顶趋势榜。
12/24/2024 11:17:00 AM
新闻助手

国产开源模型顶流「通义」,被曝应用团队已“离开”阿里云,并入阿里智能信息事业群! 阿里吴嘉回归的第一把火,能燃起来吗?

编辑 | 伊风媒体爆料了阿里系大模型“通义”的大新闻:近期,AI应用“通义”已经从阿里云被分拆出来,并入到阿里智能信息事业群! 乍一看有点懵,因为被分拆出来的不是全部的“通义”,而是 To C 的应用层“通义”。 而模型层的“通义”大模型家族相关业务,仍然保留在阿里云体系内的通义实验室中。
12/18/2024 1:18:47 PM
伊风

开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law

o1完整版公开仅10天,Scaling Law新范式就被逆向工程复现了! Hugging Face官方发文,开源了扩展测试时计算的方法。 用在小小小模型Llama 1B上,数学分数直接超过8倍大的模型,也超过了计算机科学博士生的平均分数(40%)。
12/17/2024 12:30:00 PM
量子位

两个用于科研的开源 AI Agent,改变知识研究的方式

想象一下,如果可以让爱因斯坦、埃隆·马斯克、费曼、史蒂夫·乔布斯、简·古道尔和尤瓦尔·诺亚·赫拉利和你一起合作共同研究并编写研究报告,这是一种什么感受? 我们每天产生的信息比过去一年产生的信息还要多,假如研究人员想在一个小时内访问一万个网站、研究分析数据、并编写报告,这实际上是不可能的。 如今,随着AI 大模型技术的发展,使用AI Agent却可以轻松地做到这一点。
12/16/2024 6:04:11 PM
zone7

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

无问芯穹今日宣布,开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。
12/16/2024 12:43:22 PM
沛霖(实习)