AI在线 AI在线

大模型

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。
5/28/2025 11:43:48 AM

告别卡脖子,华为黑科技破局!昇腾推理加速1.6倍打破LLM降智魔咒

LLM发展到今天,下一步该往哪个方向探索? 显然,如今最明显的一个问题就是,大模型的参数规模还是太大了——DeepSeek-V3的参数为671B,Llama 3.1系列最大为405B,GPT-4o为200B,Claude 3.5 Sonnet为175B。 参数规模在不断增长,高昂的计算成本和推理延迟,该怎么破?
5/28/2025 8:51:00 AM

知识图谱、大模型与幻觉:自然语言处理的视角

摘要大型语言模型(LLMs)已经彻底改变了基于自然语言处理(NLP)的应用,包括自动化文本生成、问答系统、聊天机器人等。 然而,它们面临一个重大挑战:产生幻觉,即模型生成听起来合理但实际上错误的内容。 这削弱了信任,并限制了LLMs在不同领域的适用性。
5/28/2025 1:50:00 AM
KGGPT

DeepSeek-V3:硬件与模型的完美统协,奏响 AI 高效新乐章

大家好,我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目,从 V3 发布至今,这一开源模型已经在众多企业场景中成功落地。 然而,在落地过程中,由于其复杂的工程细节,相信许多团队也遇到了不少挑战。
5/28/2025 1:20:00 AM
肆零柒

基于大模型的智能问答系统

在构建基于大模型的智能问答系统时,LangChain 提供了一个强大的框架,支持各种模块来帮助开发者构建更复杂、更智能的语言处理应用。 以下是构建此类系统的一些关键组件和步骤。 模型接入:使用 LangChain 支持的模型,通过 API 接入外部模型,或利用 api-for-open-llm 框架调用 本地llm模型。
5/28/2025 1:00:00 AM
耗子

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
5/27/2025 3:35:02 PM

国内首创!夸克健康大模型通过12门副主任医师职称考试,4个学科达主任医师水平

夸克健康大模型近日创造了国内AI医疗领域的重要里程碑,在12门国家副主任医师职称考试中成绩全部超过合格线,成为国内首个成功跨越这一专业门槛的大模型。 这一突破标志着AI在医疗专业能力方面达到了新的高度,目前用户已可通过夸克搜索直接调用这一全新的大模型能力。 技术架构与创新突破夸克健康大模型以阿里巴巴的通义千问为技术基础,通过海量高质量数据构建和多阶段后训练策略实现了关键性突破。
5/27/2025 3:01:00 PM
AI在线

​国内首个!夸克健康大模型成功通过副主任医师考试

夸克健康大模型在全国副主任医师职称考试中表现出色,成功通过12门学科的评测,成为国内首个跨越这一门槛的大模型。 此次考试涵盖了全科医学、普通内科学、普通外科学、妇产科学、小儿内科学、肿瘤内科学、口腔医学、耳鼻咽喉科学、眼科学、皮肤与性病学、精神病学和麻醉学等12个常用学科。 夸克健康大模型在所有测试科目中均超过了合格线,并在全科医学、肿瘤内科学、皮肤与性病学、精神病学等四个学科达到了主任医师的及格线。
5/27/2025 3:01:00 PM
AI在线

阿里妈妈推出URM大模型,引领广告智能化新潮流

近日,在 TongAI 大会上,阿里妈妈正式发布了 URM 通用召回大模型。 这一全新的技术成果,结合了深度学习与大数据分析能力,旨在提升电商广告的智能投放效果。 URM 大模型不仅能够精准解析消费者的行为和兴趣偏好,还能有效提高广告投资回报率(ROI),标志着阿里妈妈在生成式推荐领域的首次技术落地,为广告行业的智能化转型注入了新的动力。
5/27/2025 10:01:20 AM
AI在线

LLM能理解数学吗?最新研究揭露大模型数学推理的致命缺陷

你有没有想过,那些在聊天中侃侃而谈的AI大模型,遇到数学题时会是什么样子? 就像一个平时很会聊天的朋友,突然被问到复杂的数学问题时支支吾吾的样子。 最近有研究团队专门研究了这个问题,结果发现了一些让人意外的真相。
5/27/2025 1:27:00 AM
无影寺

RAG系列:问题优化 - 意图识别&同义改写&多视角分解&补充上下文

在实际业务场景中,知识库不会只有单一领域的知识,可能会存在多个领域的知识,如果对用户问题不提前做领域区分,在对基于距离的向量数据库进行检索时,可能会检索出很多与用户问题不属于同一个领域的文档片段,这样的上下文会存在较多的噪音或者不准确的信息,从而影响最终的回答效果。 另一方面知识库中涵盖的知识表达形式也是有限的,但用户的提问方式却是千人千面的,用户遣词造句的方式以及描述问题的角度可能会与向量数据库中存储的文档片段存在差异,这就可能导致用户问题和知识库之间不能很好匹配,从而降低检索效果。 为了解决此问题,我们可以对用户问题进行查询增强,比如对用户问题进行意图识别、同义改写、多视角分解以及补充上下文,通过这几个查询增强方式来更好地匹配知识库中的文档片段,提升检索效果和回答效果。
5/27/2025 12:40:00 AM
燃哥讲AI

基于图的 RAG 方法总结(GraphRAG、 GraphReader、LightRAG、HippoRAG和KAG)

在自然语言处理领域,检索增强生成(RAG)技术通过结合外部知识库与语言模型,显著提升了模型在知识密集型任务中的表现。 近年来,基于图结构的 RAG 方法成为研究热点,通过引入知识图谱的实体关系建模能力,有效解决了传统 RAG 在多跳推理、长文本理解和全局语义捕捉中的局限性。 本文详细分析五种代表性方法:GraphRAG、GraphReader、LightRAG、HippoRAG和KAG ,从实现细节、优缺点及适用场景展开对比。
5/27/2025 12:15:00 AM
Goldma

字节跳动 AdaCoT:基于强化学习的自适应推理触发方法(万字)

大家好,我是肆〇柒。 在当下,大型语言模型(LLM)凭借其强大的语言理解和生成能力,在众多领域展现出了巨大的潜力。 然而,尽管 LLM 在处理常规任务时表现出色,但在面对复杂推理任务时,却常常暴露出明显的短板。
5/26/2025 5:16:51 PM
肆零柒

字节开源Dolphin,高精度文档图像解析大模型,创新先分析后解析新范式

在数字时代,从扫描文档、图片等非结构化数据中高效、准确地提取结构化信息,是人工智能领域长期面临的挑战。 无论是复杂的表格、交织的文本段落,还是难以识别的数学公式,都对文档解析技术提出了严苛要求。 传统的解决方案往往依赖于多个专业模型的串联,不仅集成成本高昂,还容易在处理过程中累积误差 。
5/26/2025 4:46:38 PM
贝塔街的万事屋

阿里妈妈在TongAI大会推出全新URM通用召回大模型,重塑购物体验

在首届国际通用人工智能大会 TongAI 上,阿里妈妈隆重推出了其 LMA2广告大模型系列中的 URM 通用召回大模型。 这一新模型在生成式推荐(AIGR)领域的首次亮相,标志着阿里妈妈在智能广告技术上的又一次重大突破。 URM 通用召回大模型的设计理念是为了更精准地预测消费者的购物需求。
5/26/2025 4:00:50 PM
AI在线

智能取证新利器:大模型装入 “小箱子”

近日,福建厦门举办了2025年 “智会” 生态合作大会,吸引了众多行业专家和科技企业代表的参与。 本次大会重点讨论了公共安全、司法取证技术创新以及智能装备发展等前沿议题,其中一款名为 “星睿取证分析大模型一体机” 的智能设备备受瞩目。 这款一体机的亮点在于其将深度学习与便携性结合,内置了 DeepSeek 等先进的大模型技术。
5/23/2025 7:00:45 PM
AI在线

全球规模最大的单细胞基础大模型 CellFM 发布:基于国产超算,中山大学、华为等研发

该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5/22/2025 5:55:33 PM
汪淼

TCL联手阿里云深度布局AI赛道,半导体显示专家大模型"星智"正式亮相

家电巨头TCL与云计算龙头阿里云正式宣布达成全栈AI战略合作,这一合作将重点围绕半导体显示和智能终端两大核心领域展开。 双方计划充分利用阿里云在"云 AI"方面的技术优势,联合开发面向垂直行业的专业大模型解决方案。 在技术研发层面,TCL与阿里云将基于Qwen3、Qwen-VL、QwQ等先进模型,持续优化升级半导体显示专家大模型——星智X-Intelligence。
5/22/2025 5:00:55 PM
AI在线