LLM
北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准
在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。 近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。 这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。
5/27/2025 4:01:00 PM
AI在线
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM
这篇 AI Agent 漫游指南,带你建立全面的科技史观
作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程
LiteLLM:用于统一大模型访问的开源网关
译者 | 核子可乐审校 | 重楼摘要:LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。 不同提供商发布的大语言模型(LLM)层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。 每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。
5/27/2025 8:19:06 AM
核子可乐
LLM能理解数学吗?最新研究揭露大模型数学推理的致命缺陷
你有没有想过,那些在聊天中侃侃而谈的AI大模型,遇到数学题时会是什么样子? 就像一个平时很会聊天的朋友,突然被问到复杂的数学问题时支支吾吾的样子。 最近有研究团队专门研究了这个问题,结果发现了一些让人意外的真相。
5/27/2025 1:27:00 AM
无影寺
LLM的 “自信陷阱”:上下文幻觉如何侵蚀 AI 信任?
一、当AI自信地给出错误答案在数字技术飞速发展的今天,大语言模型(LLMs)正以前所未有的速度渗透到我们生活的方方面面。 从智能客服到医疗诊断,从金融分析到法律文书,这些模型凭借其强大的语言理解和生成能力,似乎正在重塑人类与信息交互的方式。 然而,在其光鲜亮丽的表现背后,一个隐蔽而危险的问题正悄然浮现——上下文幻觉(Contextual Hallucination)。
5/26/2025 1:45:00 AM
大模型之路
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒
Qwen3:开源 LLM 的革新者与多语言先锋(万字)
“ Qwen3 模型以其卓越的性能、效率和多语言能力,为开源大语言模型领域树立了新的标杆,引领着技术发展的新潮流。 ”大家好,我是肆〇柒。 在 4 月底的时候 Qwen3 开源放出了权重,在热火朝天开炉炼丹后的不久,上周三千问团队又放出了 Qwen3 的技术报告,最近有点小忙,所以虽然第一时间阅读了技术报告,但是一直没有发文出来。
5/22/2025 5:00:00 AM
肆零柒
并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)
“ PARSCALE 作为一种新型的语言模型扩展范式,通过增加并行计算次数 P,在保持参数规模几乎不变的情况下,能够显著提升模型的推理能力。 ”大家好,我是肆〇柒。 今天,我们来聊一项可以改变语言模型性能的技术——PARSCALE(Parallel Scaling)。
5/22/2025 4:00:00 AM
肆零柒
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。 他主要研究机器学习与编程系统的结合。 此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。
5/21/2025 1:52:39 PM
解锁 LLM 新高度!一文深度解读 Qwen3 大模型
1、模型架构Qwen3 系列涵盖 6 种密集型模型和 2 种 MoE 模型,参数规模从 0.6 亿到 2350 亿不等,满足不同下游应用需求。 旗舰模型 Qwen3-235B-A22B 作为 MoE 模型,总参数量达 2350 亿,每 token 激活参数量为 220 亿,在性能与效率间取得平衡。 密集型模型Qwen3 的密集型模型架构与 Qwen2.5 类似,采用 Grouped Query Attention(GQA)和 QK-Norm 改进注意力机制,使用 SwiGLU 作为激活函数,搭配 Rotary Positional Embeddings(RoPE)进行位置编码,采用 RMSNorm 并预归一化。
5/21/2025 9:04:38 AM
Goldma
一文读懂 Vision RAG 模型
众所周知,检索增强生成(RAG)技术已在大语言模型(LLM)应用中证明了其巨大价值,通过从外部知识库检索相关文本信息,显著提升了模型回复的准确性、时效性和可追溯性。 然而,我们所感知和理解的世界并非只由文本构成:大量的现实信息和复杂语境,深刻地蕴含在图像、图表、视频等视觉内容之中。 传统的 RAG 模型难以直接“看”懂并利用这些丰富的视觉信息。
5/20/2025 11:55:22 AM
Luga Lee
深入了解如何通过 LM Studio 优化本地 LLM 性能
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 如何通过 LM Studio 优化本地 LLM 性能。 在人工智能浪潮席卷全球的 2025年,本地大语言模型(LLM)的性能优化已成为开发者和企业关注的焦点。 随着计算资源需求激增,如何在本地环境中提升模型的效率、降低延迟并释放其最大潜力,成为了亟待解决的关键挑战。
5/20/2025 9:24:15 AM
Luga Lee
理解 RAG 第九部分:针对 RAG 微调 LLM
在“理解 RAG”系列的前几篇文章中,我们重点探讨了检索增强生成的各个方面。 文章中,我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件,该组件用于检索有意义且真实的上下文知识,从而提升 LLM 输入的质量,并最终提升其生成的输出响应。 具体来说,我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索,以及如何利用向量数据库和索引策略来有效地检索知识。
5/20/2025 6:00:00 AM
晓晓
为什么 API 必不可少,而 MCP 暂时是可选的
作者 | Gil Feig编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)AI 助手在产品体验中的重要性日益凸显,而一种新的标准也应运而生,它助力 AI 助手的构建:模型上下文协议 (MCP)。 随着 Anthropic、OpenAI 和 Gemini 等主流大型语言模型 (LLM) 提供商的采用,该协议迅速在更广泛的软件生态系统中获得了广泛关注,各大公司纷纷构建自己的 MCP 服务器。 作为参与构建 MCP 服务器和 API 集成的人员,我亲眼目睹了这种快速采用导致的混乱。
5/19/2025 7:01:14 PM
云昭
研究:AI 聊天机器人在数据总结能力上愈加糟糕,关键细节常被遗漏
随着人工智能技术的迅猛发展,各大 AI 创业公司不断宣称其产品将工作方式和知识获取的方式。 然而,最近一项发表在《皇家学会》上的研究却揭示了新一代 AI 模型在总结文本时存在严重问题,令人担忧。 研究显示,新款 AI 聊天机器人在提供信息时,有高达73% 的概率会遗漏关键信息。
5/19/2025 10:01:05 AM
AI在线
惊现狠人手搓Agent心经!LLM的Tool Use逻辑曝光!简单到爆炸:仅9行代码!网友直呼:难以相信!难点是LLM循环几次!
作者 | 云昭一款 Agent 究竟是怎样让大模型具备“Tool Use”,即工具调用的能力? 今天,有一位正在创建编码 Agent 的狠人出来曝光了这个算法逻辑。 这位狠人,名为 Philip Zeyliger,过去几个月,他和他的团队一直在开发一款名为“Sketch”的 AI 编程助手。
5/16/2025 6:29:19 PM
云昭
支付巨头被打脸!曾放话AI能顶700名人类客服,年省4千万刀;一年后又把员工招回来了!CEO公开认错:我们部署AI的方式太极端了
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)第一批因为AI裁员的公司,又把员工请回来了! 曾信誓旦旦宣布“一个 AI 顶 700 个客服”的 Klarna,如今不得不亲自“打脸”。 图片这家全球领先的“先买后付”平台(类似于国内的“蚂蚁花呗”),在 2024 年接入 OpenAI 技术后,便风风火火地All in AI:暂停招聘、削减成本,甚至计划用 AI 逐步取代多达数千名的外包客服。
5/13/2025 3:17:07 PM
伊风
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
OpenAI与博通联手打造10GW定制AI加速器
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
具身智能
GPU
RAG
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
伟达
Transformer
编程
AI模型
生成式AI
神器推荐
亚马逊