语言模型
LeCun团队揭示LLM语义压缩本质:统计压缩牺牲细节
当我们读到“苹果”“香蕉”“西瓜”这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为“水果”。 哪怕是第一次见到“火龙果”这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为语义压缩,它让我们能够高效地组织知识、迅速地对世界进行分类。
7/4/2025 9:53:57 AM
视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划
——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS
CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征
当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM
RAG(检索增强生成):提升大语言模型性能的终极指南
一、大语言模型的困境:从“鹦鹉学舌”到“知识饥渴”在人工智能领域,大语言模型(LLMs)的出现曾让我们惊叹于其语言能力——它们能流畅对话、撰写文章,甚至模仿人类的逻辑推理。 然而,随着应用场景的深入,这些“超级智能鹦鹉”的局限性逐渐暴露:时效性缺失模型训练数据往往截止到某个固定时间点,无法回答“昨晚比赛结果”“最新政策变化”等实时问题。 知识边界模糊面对企业内部文档、专业领域知识等私有数据时,传统LLMs因缺乏访问权限而无法准确响应。
5/28/2025 1:25:00 AM
大模型之路
字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果
Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。 这样不管是中文、日文、韩文还是其他语言都可以精准的生成! 从某种意义上说也算是打破了AI图文生成语言的壁垒!
5/9/2025 9:12:00 AM
Ema推新型语言模型EmaFusion:成本和准确性方面击败了 O3、Gemini
在 AI 行业竞争日益激烈的今天,Ema 公司推出了一款新型语言模型 EmaFusion,声称在成本和准确性上超越了包括 O3、Gemini 和 Sonnet 在内的多款知名 AI 模型。 与传统的单一策略系统不同,EmaFusion 采用了一种 “级联” 判断系统,能够动态平衡成本和准确性,同时用户也可以根据具体任务的需求进行微调。 Ema 的首席执行官 Surojit Chatterjee 表示,EmaFusion 像一个 “任务智能大脑”,能够智能地拆解复杂的问题,并将其分配给最合适的 AI 模型来解决。
4/27/2025 10:00:48 AM
AI在线
UIUC联手谷歌发布Search-R1 大模型学会边查百度边答题
最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%,还解锁了"边推理边搜索"的究极形态。 今天带你们围观这场学术界的"作弊式进化",看完保证你想给自家AI办张网吧会员卡!论文地址: 主页:"人肉搜索插件"话说在某个月黑风高的实验室,一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》,简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。 传统AI做题就像开卷考试:你先把维基百科塞它脑子里(RAG技术),结果这货要么翻错页,要么对着菜谱答高数题。
4/21/2025 6:00:37 PM
AI在线
xAI发布Grok3Mini:为开发者提供高性价比AI模型
xAI近日推出了其全新的语言模型——Grok3Mini,进一步推动了高效AI技术的发展。 Grok3Mini专为速度和经济性设计,尽管体积较小,但在多个领域的表现优于许多更昂贵的AI模型,尤其在数学、编程和科学基准测试中表现突出。 Grok3Mini:高性能与低成本的完美平衡Grok3Mini是Grok3系列的一部分,该系列包含六种变体,其中包括标准的Grok3、Grok3Fast,以及四种版本的Grok3Mini,提供慢速和快速两个版本,每种版本又具备低推理能力或高推理能力的选项。
4/21/2025 12:00:58 PM
AI在线
让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度
大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。 检索增强生成(Retrieval-Augmented Generation, RAG)通过构建特定领域知识库,采用基于向量的检索技术来提取与给定查询相关的信息,从而使LLM能够生成更准确、更可靠的内容。 然而,现有的基于图的RAG方法受限于仅能表示实体之间的成对关联,无法表示那些更复杂的多实体间的群组高阶关联,导致数据结构化过程中这些高阶信息的丢失。
4/21/2025 8:45:00 AM
新智元
OpenAI发布GPT-4.1指令提示工程指南
4月15日,OpenAI 发布了针对 GPT-4.1的提示工程指南,为开发者提供了全面的建议和最佳实践,帮助他们更高效地构建和优化 AI 应用。 这份指南详细介绍了 GPT-4.1的特性,并提供了从基础原则到高级策略的一系列技巧,旨在帮助开发者充分利用 GPT-4.1的强大能力。 GPT-4.1是 OpenAI 最新的语言模型,它在编程能力、指令遵循能力和长上下文处理能力上相比前代模型有显著提升。
4/15/2025 1:01:48 PM
AI在线
使用人工智能幻觉评估图像真实感
译者 | 朱先忠审校 | 重楼引言最近,俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。 这种方法的主要思想是:不是通过提高大型视觉语言模型(LVLM)的准确性,而是通过有意利用它们产生幻觉的倾向。 这种新方法使用LVLM提取有关图像的多个“原子事实”,然后应用自然语言推理(NLI)系统地衡量这些陈述之间的矛盾,从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。
4/9/2025 8:23:49 AM
朱先忠
百度端到端语音语言大模型发布,成本宣称最高降 90%
百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。
3/31/2025 4:34:27 PM
汪淼
电脑游戏《Factorio》成为 AI 能力评估的新工具
《Factorio》是一款复杂的电脑游戏,专注于建造与资源管理,最近成为研究人员评估人工智能能力的新工具。 这款游戏能够测试语言模型在规划和构建复杂系统的能力,同时管理多个资源和生产链。 为此,研究团队开发了一个名 “Factorio 学习环境”(FLE)的系统,提供了两种不同的测试模式。
3/17/2025 10:37:00 AM
AI在线
清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1
编辑 | ScienceAI2025 年初,DeepSeek给全球引发了 AI 大模型的新一轮热议。 多家市场咨询公司指出,在 DeepSeek 的影响下,从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。 DeepSeek R1 以其强大的推理能力,为各行各业带来了智能化升级新机遇。
2/21/2025 4:03:00 PM
ScienceAI
西北工业大学开源语音理解模型OSUM,结合Whisper和Qwen2,支持8种语音理解任务
在人工智能领域,语言模型的快速发展引发了语音理解语言模型(SULMs)的广泛关注。 近日,西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM,旨在探索在学术资源有限的情况下,如何有效训练和利用语音理解模型,以推动学术界的研究与创新。 OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型,支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。
2/20/2025 4:33:00 PM
AI在线
Mistral AI 发布 Saba:专注于中东和东南亚语言的AI模型
Mistral AI 近日推出了名为 Saba 的新型语言模型,该模型专注于提升对中东和东南亚地区语言及文化差异的理解。 Saba 模型拥有240亿参数,虽然规模小于许多竞争对手,但 Mistral AI 声称其在保证准确性的同时,提供了更高的速度和更低的成本。 其架构可能与 Mistral Small3模型相似。
2/18/2025 9:20:00 AM
AI在线
本地部署 DeepSeek:打造你的专属 AI 推理环境,简单明了适合新手
随着 AI 大模型的爆发,DeepSeek 作为一款备受瞩目的开源大模型,吸引了众多开发者的关注。 如何在本地搭建 DeepSeek 推理环境,以便更高效地进行 AI 研究和应用开发? 本篇文章将为你详细解析本地部署 DeepSeek 的完整流程,让你轻松打造属于自己的 AI 推理环境。
2/12/2025 11:59:15 AM
派大星
AI意识更进一步!谷歌DeepMind等:LLM不仅能感受痛苦,还能趋利避害
在科幻电影《机械姬》中,女主角是一款能够感受痛苦的机器人;然而LLM为代表的AI能否感知痛苦和快乐,一直是存在争议。 一些科学家认为,大模型缺乏相应的生理结构和神经系统,因此无法体验情感。 而另一些人则认为,大模型能够生成关于痛苦和快乐的详细描述,并且能够在选择情境中权衡痛苦和快乐,这表明它们可能具有某种程度的情感体验。
2/10/2025 1:30:00 PM
新智元
资讯热榜
腾讯混元推出业界首个美术级 3D 生成大模型 Hunyuan3D-PolyGen,建模效率提升超七成
Cluely 短短一周内年收入翻倍至700万美元
揭开大模型的秘密!那些 “思考词” 背后藏着惊人的信息量
微信支付MCP上线:AI与支付的完美结合,开启商业新纪元
日立能源警告:AI 中心的电力需求波动可能威胁全球电力供应稳定
Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术
苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型:基于 Qwen2.5-7B,可不按顺序生成代码
谷歌Veo 3视频生成模型向 Pro / Ultra 会员开放,将新增“照片生成视频”功能
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
AI新词
神经网络
3D
Claude
研究
生成
LLM
机器学习
计算
Sora
AI视频
AI设计
GPU
人形机器人
AI for Science
xAI
华为
百度
搜索
大语言模型
Agent
场景
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
RAG
视觉
神器推荐
具身智能
Copilot
模态
亚马逊
LLaMA
文本
AGI
算力
驾驶