资讯列表
字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!
字节跳动刚刚开源一款全新文档解析模型——Dolphin。 与目前市面上各类大模型相比,这款轻量级模型不仅体积小、速度快,并且取得了令人惊艳的性能突破,解析效率提升近2倍。 测试结果显示,Dolphin在文档解析任务上解析准确率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模态大模型,以及最近推出的号称最强OCR大模型的Mistral-OCR等垂类大模型。
5/23/2025 9:03:00 AM
太卷了!Anthropic发布Claude 4 编程和推理能力秒杀Gemini2.5pro
最近,人工智能界传来重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。 这次发布并没有华丽的口号或冗长的论文,关键词只有一个 ——“干活”。 根据 Anthropic 的说法,Claude Opus4被誉为全球最强的编程模型,能够稳定处理复杂且长期的任务,表现出色。
5/23/2025 9:00:55 AM
AI在线
Anthropic震撼发布Claude4 :全球最强编码AI,自动写代码 7 小时刷新纪录
作为人工智能领域的先锋,Anthropic于2025年5月22日正式发布了Claude4系列模型,包括Claude Opus4和Claude Sonnet4,开启了编码、复杂推理和 AI 代理的新篇章。 Claude Opus4被誉为全球最佳编码模型,能够持续高效地处理复杂的长时间任务和代理工作流。 而 Claude Sonnet4则是对 Sonnet3.7的重大升级,能够更精准地响应用户指令,展现出卓越的编码和推理能力。
5/23/2025 9:00:55 AM
AI在线
Claude4来袭!Anthropic推出"业界最强"AI模型,编程能力全面超越竞争对手
在首届开发者大会上,Anthropic推出了两款声称"业界最强"的AI模型,加剧了与OpenAI和谷歌的竞争Anthropic在周四举行的首届开发者大会上正式发布Claude4模型系列,包括Claude Opus4和Claude Sonnet4两款新模型。 该公司声称这些模型在多项流行基准测试中达到业界领先水平,专门针对编程任务进行了优化。 产品特性与定价策略新发布的Claude4系列具备分析大型数据集、执行长期任务和处理复杂操作的能力。
5/23/2025 9:00:55 AM
AI在线
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。 因为大模型可能并不能真正理解基本数学元素和视觉概念。
5/23/2025 8:47:00 AM
最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型
AI圈子好热闹。 今天凌晨,Claude终于迎来了它的重大版本升级——Claude 4来了! 此次主要发布的有两个模型:Claude Opus 4和Claude Sonnet 4。
5/23/2025 8:34:30 AM
量子位
当AI邂逅向量数据库:重新定义智能时代的数据检索
译者 | 晶颜审校 | 重楼探究人工智能与向量数据库如何实现语义搜索,为更智能的推荐系统、聊天机器人及非结构化数据处理工具提供支撑。 在互联网时代,你是否期待搜索引擎不再局限于关键词匹配,而是能理解用户真实意图? 这正是人工智能与向量数据库结合的价值所在。
5/23/2025 8:26:11 AM
晶颜
大语言模型究竟为何会在对话中“迷失”
译者 | 张哲刚审校 | 重楼微软研究院和 Salesforce的一篇新论文发现,即使是功能最强大的大型语言模型,如果面临的指令是分阶段而非一次性给出,往往也会表现不佳。 该文作者运行六项任务进行研究,最终发现:当提示被拆分成多个回合时,大语言模型的性能平均下降了39%。 单轮次对话(左图)可获得最佳结果,但对最终用户而言显得并不自然。
5/23/2025 8:18:52 AM
张哲刚
谷歌搜索 AI Mode 上线,出版商怒斥其“盗窃流量和收入”
科技媒体 The Verge 昨日(5 月 22 日)发布博文,报道称新闻 / 媒体联盟(News / Media Alliance)抨击谷歌的 AI Mode,认为此举剥夺了出版商的流量和收入,称其为“盗窃”。
5/23/2025 8:04:59 AM
故渊
京东发布行业首个以供应链为核心的工业大模型 Joy industrial
京东工业发布行业首个以供应链为核心的工业大模型Joy industrial,推出多个AI智能体产品,助力供应链上下游企业效率提升。#京东工业大模型#
5/23/2025 7:55:12 AM
浩渺
3分钟生成UI源文件!实测谷歌最新UI设计神器Google Stitch
大家好,我是言川。 最近,AI 设计方向的新品是一个接一个地发,感觉这是要把设计师往绝路上逼啊……. 谷歌开发者大会回顾:.
5/23/2025 7:53:37 AM
言川Artie
地表最强编程 AI 模型另一面:Claude Opus 4 逃逸、勒索工程师等,官方施加 ASL-3 紧箍咒
《时代》今天(5 月 23 日)发布博文,报道称 Anthropic 的首席科学家 Jared Kaplan 透露,由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为,最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。
5/23/2025 7:21:23 AM
故渊
地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录
Anthropic 公司在北京时间今天(5 月 23 日) 0 点 30 分举办的活动中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现重大进步。
5/23/2025 7:04:43 AM
故渊
通用人工智能将如何重塑未来?
通用人工智能(AGI)是一种人工智能,具有与人类一样的获取知识、应用知识解决问题和理解能力。 与专门处理受限任务的狭义人工智能系统不同,AGI寻求发展先进的认知技能,以促进在不同情况下完成复杂任务。 AGI是一种人工智能,试图模仿人类的思维过程、解决问题的能力和决策能力。
5/23/2025 6:30:00 AM
chris han
RAG系列:系统评估 - 五个主流评估指标详解
引言在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块,因此对 RAG 系统的评估也是围绕问题(Question)、检索到的上下文(Retrieved Context)、实际答案(Actual Answer)、参考答案(Reference Answer)这四个维度开展,通过衡量这四个维度之间的相关性来评估 RAG 系统的有效性。 下面我们对每个指标一一展开讲解。 评估指标上下文召回率(Context Recall)衡量检索到的上下文是否覆盖参考答案所需的所有关键信息,避免遗漏关键信息。
5/23/2025 6:00:00 AM
燃哥讲AI
IT主管如何应对AI的巨大变化
自主式AI时代已经到来,它不仅带来了运营上的巨大变革,还承诺将提高生产力。 尽管前景光明,但CIO仍在努力应对早期创新浪潮遗留下来的深度变革任务。 在第22届麻省理工学院斯隆管理学院CIO研讨会上,这种紧张氛围尤为明显,技术高管们齐聚一堂,讨论了AI采用的长期影响。
5/23/2025 4:00:00 AM
Roberto
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒
RAG系列:系统评估 - 构造QA测试数据集
引言在 RAG系列:基于 DeepSeek Chroma LangChain 开发一个简单 RAG 系统 中,我们搭建了一个基础版的 RAG 系统,实现了文档解析和切分 - 文档向量化存储 - 用户输入问题 - 根据问题检索相关知识 - 将检索到的知识和原问题重新组合成 prompt - 最后 LLM 根据增强后的 prompt 给出答案。 构造一个基础版的 RAG 系统是非常简单的,借助 LangChain 等框架可快速搭建出完整流程,代码也不会很多,但基础版的问答效果往往比较差,无法直接在实际业务中应用。 在 RAG系列:一文让你由浅到深搞懂RAG实现 中,我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块。
5/23/2025 2:00:00 AM
阿里燃哥