数据
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。
11/25/2024 3:30:00 PM
新智元
20种复杂Excel操作一句话搞定!北大ChatExcel全新升级,所有人免费可用
AI做Excel表,现在next level了——北大团队ChatExcel最新升级,一句话搞定线性分析,图表、文字总结全都有。 比如分析各地区数据增长与时间之间是否存在相关性。 它清晰列出具体步骤计划:先对数据预处理,计算每年增长率,绘制各地区增长率和时间的折线图,最后进行分析。
11/25/2024 10:12:00 AM
量子位
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接外部数据源,检索增强生成(RAG)技术也逐渐获得业内的关注。 但并不是接入外部数据即可万事大吉,有很多用户查询非常难处理,从检索相关数据、准确解释用户意图,再到充分利用LLMs的推理能力都需要进行优化处理,才能得到一个相对满意的RAG系统来执行复杂任务,并不存在一种万能的解决方案。 在实践中,如果RAG效果不佳,通常是由于未能准确识别任务的核心问题,或者是因为该任务本身就需要混合多种技术才能解决,必须将复杂任务拆解开才能获得更好的表现。
11/21/2024 3:20:00 PM
新智元
让模型预见数据分布变化,东京大学等提出时态域泛化全新框架
在数据分布持续变化的动态环境中,如何进行连续模型泛化? 东京大学等高校的研究人员提出了名为Koodos的新框架,可以基于在一些随机时间点观测的数据分布,在任意时刻生成当下适用的神经网络。 尽管数据随时间持续发生变化,但是泛化的模型能在连续时间中与数据分布始终保持协调一致。
11/21/2024 1:40:00 PM
量子位
量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了,SU哈佛亚马逊最新研究引热议
4-bit量化,能让现有反学习/机器遗忘技术失灵! 也就是大模型在人类要求下“假装”忘记了特定知识(版权、私人内容等),但有手段能让它重新“回忆”起来。 最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在reddit、Hacker News上引起热议。
11/18/2024 10:50:00 AM
量子位
即插即用ChatTracker:多模态大模型重塑目标跟踪
写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。
11/12/2024 10:20:00 AM
自动驾驶Daily
两位本科生一作,首次提出「持续学习」+「少样本」知识图谱补全 | CIKM 2024
知识图谱(Knowledge Graphs)是一种结构化的,用于展示和管理信息,组织现实世界知识的形式。 其通常被表达为三元组形式(头实体,关系,尾实体)。 KGs 为问答系统、推荐系统和搜索引擎等各种实际应用提供了极其重要支持。
11/11/2024 2:20:00 PM
新智元
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队! HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。 通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。
11/11/2024 8:30:00 AM
量子位
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
文本属性图Text-Attributed Graphs(TAGs)是一种在节点上有丰富文本信息的图结构, TAGs 广泛应用于社交网络(social network)、引用网络(citation network)和推荐系统(recommendation system)等实际场景中。 由于其强大且通用的表达能力,该领域近年来得到了快速发展。 然而目前TAGs面临三大挑战:现有的TAGs数据集一般仅在节点上包含文本信息,而边的信息往往被简化为二元或分类属性。
11/8/2024 1:30:00 PM
新智元
GPT-4o加钱能变快!新功能7秒完成原先23秒的任务
OpenAI出了个新功能,直接让ChatGPT输出的速度原地起飞! 这个功能叫做“预测输出”(Predicted Outputs),在它的加持之下,GPT-4o可以比原先快至多5倍。 以编程为例,来感受一下这个feel:为啥会这么快?
11/6/2024 3:20:00 PM
量子位
英伟达团队机器训练新方法:仅 5 次演示让机器生成 1000 个新 demo
人类只需要演示五次,就能让机器人学会一项复杂技能。 英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。 五次演示之后,DexMimicGen 就可以直接模仿出 1000 个新的 demo。
11/5/2024 12:56:36 PM
汪淼
车道线再出发!SinLane:孪生Transformer如何破局(上交&浙大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 & 笔者的个人理解车道检测是自动驾驶系统中一项重要但具有挑战性的任务。 基于Visual Transformer的发展,早期基于Transformer的车道检测研究在某些场景下取得了有前景的结果。
11/5/2024 9:46:21 AM
自动驾驶Daily
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
Transformer自问世后就大放异彩,但有个小毛病一直没解决:总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。 论文中介绍,整体思路类似差分放大电路或降噪耳机,用两个信号的差值来滤除共模噪声。
11/4/2024 8:45:00 AM
量子位
Claude AI 上线新工具:分析、可视化 CSV 文件中的数据
科技媒体 NeoWin 昨日(10 月 24 日)发布博文,报道称 Anthropic 公司在更新 Claude 3.5 Sonnet 并推出全新的 Claude 3.5 Haiku 后,还推出了全新的分析工具,可以编写和运行 JavaScript 代码,实现处理数据、进行分析并生成实时洞察。 此分析工具将作为 Claude.ai 的新内置功能提供,类似于 ChatGPT 的代码解释器,它能够编写和运行 JavaScript 代码,处理数据、进行分析并生成洞察。 Claude 可以根据输入提示和文件,逐步清理、探索和分析数据,直到达到预期结果。
10/25/2024 11:11:23 AM
故渊
中国移动上海产业研究院:金融领域 AI 大模型渗透率过半,系行业最高
据《北京商报》周日报道,在 2024 金融街论坛年会“AI 金融赋能数字金融新篇章”平行论坛上,中国移动上海产业研究院副总经理陈豫蓉介绍,金融领域是大模型渗透率最高的行业,渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门,也是应用成熟度最高的 AI 大模型应用场景。AI在线从报道获悉,金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景,被视为大模型技术应用的最优行业之一。
10/21/2024 8:52:35 AM
清源
LightRAG: 港大黄超团队打造简单高效的RAG系统, 大幅降低大模型检索增强成本
项目地址:: ,结合了图结构与双层检索机制,显著降低了大模型检索增强的成本,同时提升了信息检索的准确性和效率。首先,通过引入图结构,LightRAG能够更好地捕捉实体之间的复杂依赖关系,实现全面的信息理解。其次,其双层检索策略允许系统同时处理具体和抽象的查询,确保用户获得既相关又丰富的响应。
10/14/2024 2:17:00 PM
新闻助手
OpenAI 发布 MMMLU 数据集:更广、更深评估 AI 模型,支持简体中文
科技媒体 marktechpost 昨日(9 月 23 日)发布博文,报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI 决定推出 MMMLU 数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LLMs)在各种任务中的性能,从而应对这一挑战。MMMLU 数据集简介MMMLU 数据集包含一系列问题,涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研
9/24/2024 2:46:03 PM
故渊
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2
9/19/2024 10:47:00 AM
新闻助手
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind