AI在线 AI在线

理论

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。 这种现象严重影响了学术论文的可信度与专业性。 现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCopilot 的智能学术写作大模型框架,专门针对学术场景,致力于精准地生成带有准确引用的学术文本。
4/11/2025 9:12:21 AM
量子位

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下:都是基于MoE架构,总参数为16B,但推理时仅激活2.8B;具备强大的多模态推理能力(媲美参数大10倍的模型)和Agent能力;支持128K上下文窗口;采用相对较为宽松的MIT许可证。
4/11/2025 9:10:00 AM
量子位

Dify+RAGFlow:泵类设备预测维护系统案例分享

上篇文章介绍到的 Dify RAGFLow 的协同使用文章里,提到了一个泵类设备预测性维护智能系统。 后来陆续有人私信咨询实施细节,这篇做个统一的介绍。 Dify RAGFlow:1 1>2的混合架构,详细教程 实施案例项目定位是,利用 Dify 的工作流编排能力和 RAGFlow 的知识库组件,结合模拟的设备传感器数据 (IoT) 和企业资源数据 (CMMS, MES, ERP),构建一个针对离心式冷却液泵的预测性维护系统原型。
4/11/2025 9:02:47 AM
韦东东

十大步骤详解Spring AI MCP机制底层实现,小白误入!

MCP分为MCP Client和MCP Server:MCP Client负责进行工具发现和工具调用MCP Server负责提供工具和工具执行总体流程图图片十大步骤详解第一步,MCP Client接收用户的问题,比如“今天是几月几号”。 第二步,MCP Client发送tools/list请求给MCP Server进行工具发现。 利用Spring AI开发的MCP Server,可以利用@Tool注解定义工具,比如:图片并利用MethodToolCallbackProvider提供出去:在MCP Server的MpcServerAutoConfiguration自动配置类中定义了一个McpSyncServer的Bean,它会依赖注入ListToolCallbackProvider,这样McpSyncServer中就拿到了MCP Server中定义的所有Tools(调用ToolCallbackProvider的getToolCallbacks()即可拿到)。
4/11/2025 9:01:37 AM
IT周瑜

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​

利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。
4/11/2025 9:00:00 AM
量子位

ChatGPT有了完整记忆!像朋友一样记住所有聊天记录,回复更加私人订制

ChatGPT可以引用过去所有聊天了! 刚刚,OpenAI发布ChatGPT新能力,支持参考过去所有对话内容,更好根据个人喜好来生成回复。 除了保存此前记忆,还能引用过去内容。
4/11/2025 8:51:51 AM

有了MCP,AI不仅更完整,还更实用了

互联网刚诞生时,普通人对它的印象只是能收发电子邮件。 智能手机刚出现时,很多人觉得不过是个能打电话的小电脑。 当AI大模型横空出世,大家惊叹于它超强的对话能力,却难以想象它能做什么实际工作。
4/11/2025 8:45:00 AM

Java家族出列:十款值得关注的生成式AI工具与框架

译者 | 核子可乐审校 | 重楼尽管Java并非大多数程序员构建AI/ML项目的首选语言——毕竟Python拥有更庞大的AI/ML框架生态——但Java在AI、机器学习及生成式AI革命中仍占据重要席位。 其技术优势和广泛的生态系统使其成为许多开发者的首选,尤其是那些偏好严格类型定义和JVM高性能的开发者。 甚至部分Python爱好者也会通过Jython运行代码以发挥JVM的速度优势。
4/11/2025 8:30:39 AM
核子可乐

模态编码器 | ALIGN,通过大规模嘈杂数据集训练的视觉语言模型

简单看一下Google早期的一篇工作ALIGN,发表在2021 ICML上。 研究动机:传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练,需要大量的预先处理和成本。 ALIGN利用网络上摘取的HTML页面和alt-text标签,构建了一个18亿对图像-文本的嘈杂数据集,从而在不需要昂贵的数据过滤的情况下,实现高效的学习。
4/11/2025 2:00:00 AM
Goldma

2025年CIO的优先事项:掌握AI,确保未来

在BrightTALK CIO峰会上,七位IT和技术专家分享了实用策略和最佳实践,以供希望在这个动荡但又充满机遇的商业时代导航并了解2025年CIO首要任务的IT领导者参考。 证明AI投资的投资回报率:构建用例供应链随着AI应用的普及,确定能够提供切实商业价值的用例是2025年CIO的一项关键优先事项。 在这一领域取得成功需要一种战略方法,以识别和利用能够显著改善底线表现的AI举措。
4/11/2025 12:30:00 AM
Ana

模态编码器 | FLIP:通过图像掩码加速CLIP训练

来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
4/11/2025 12:16:00 AM

NoETL×大模型:Aloudata重构数据智能新范式,驱动企业决策革命

在当今数据驱动的时代,企业对于高效、智能的数据处理与分析需求日益增长。 随着大模型的兴起,如DeepSeek等,数据智能领域正经历着前所未有的变革。 Aloudata大应科技创始人&CEO周卫林表示,企业的核心竞争力包括人才壁垒、技术壁垒以及资本壁垒。
4/10/2025 4:23:02 PM

大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。 在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。 其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
4/10/2025 2:30:12 PM
清源

科学家用GNN进行不确定性量化,实现高效的分子设计,登Nature子刊

题图来源:AI生成编辑 | 白菜叶在广阔的化学空间中优化分子设计面临着独特的挑战,尤其是在领域转移的情况下保持预测准确性。 在最新的研究中,台湾大学(National Taiwan University)的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。 他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间,并确定了最有效的实施策略。
4/10/2025 1:11:00 PM
ScienceAI

模态编码器 | 恺明大神的MAE--掩码自编码器

恺明大神在2021年提出掩码自编码器(MAE),一种简单的自监督学习方法,通过随机掩盖输入图像的部分区域并重建缺失的像素。 主要研究动机如下:数据需求与过拟合问题:深度学习模型,尤其是视觉领域的模型,需要大量数据来避免过拟合。 自然语言处理(NLP)领域通过自监督预训练(如BERT)成功解决了这一问题,但在计算机视觉领域,类似的自监督学习方法发展相对滞后。
4/10/2025 11:52:55 AM

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

OpenAI o1/o3-mini级的推理模型,竟被抢先开源了? 刚刚,来自UC伯克利和Together AI的联合团队,重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。 现在,只需要14B就可以拥有一个媲美o3-mini的本地模型,并且完全免费!
4/10/2025 10:02:43 AM
新智元

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗? 最近,这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1,一经发布,又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频,便可生成高质量、达到电影级别的视频,将人像视频生成的表现力提升至全新水平! 左右滑动查看项目网页::,还能精准捕捉并迁移驱动视频中的动作和表情,呈现出高度逼真的效果,极大地简化了现有的动作捕捉、角色动画以及内容创作流程。
4/10/2025 9:54:40 AM
新智元

谷歌最新AI芯片打平英伟达B200,专为推理模型打造,最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了,专为深度思考模型打造。 代号Ironwood,也就是TPU v7,FP8峰值算力4614TFlops,性能是2017年第二代TPU的3600倍,与2023年的第五代TPU比也有10倍。 (为什么不对比第六代,咱也不知道,咱也不敢问。
4/10/2025 9:43:01 AM
量子位