AI在线 AI在线

资讯列表

模态编码器|EVA探索掩码视觉表征学习的极限

今天来看一篇经典的视觉表征学习的方法EVA,来自智源研究院发表在2023年CVPR的一篇工作。 项目地址::自然语言处理(NLP)领域通过扩展预训练语言模型(PLMs)取得了革命性的成功,作者希望将这种成功从语言领域转移到视觉领域,即扩展一个视觉中心的基础模型,以便于视觉和多模态下游任务。 另外,视觉模型预训练和扩展的方法主要依赖于监督或弱监督训练,需要数百万个(通常是不可公开访问的)标注数据。
4/7/2025 4:30:00 AM
Goldma

人工智能在物联网中的挑战和局限性

虽然人工智能在物联网中的集成提供了诸多好处,但也带来了一定的挑战和限制。 了解并解决这些问题对于确保人工智能在物联网系统中的成功部署和利用非常重要。 让我们探讨一些关键挑战:人工智能驱动的物联网系统中的安全和隐私问题人工智能驱动的物联网设备中连接性和数据交换的增加引发了安全和隐私问题。
4/7/2025 4:00:00 AM
chris han

DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

DeepSeek R2,果然近了。 最近,DeepSeek和清华的研究者发表的这篇论文,探讨了奖励模型的推理时Scaling方法。 图片论文地址:,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。
4/7/2025 3:44:00 AM
新智元

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

AI又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石! 在刚刚登上Nature的论文中,谷歌DeepMind的智能体通过纯·自我学习,顺利完成了收集钻石的任务。 图片论文链接:,DeepMind的计算机科学家Danijar Hafner表示:「Dreamer是一个重要的里程碑,标志着AI又朝着通用人工智能前进了一大步。
4/7/2025 3:00:00 AM
新智元

自动驾驶行业现状,端到端大模型,训练,数据合成方法

自动驾驶行业现状1、当前行业主要玩家有     第一梯队有:华为,momenta,元戎      第二梯队有:鉴智, 绝影智能等2、主机厂现在都要求自动驾驶厂商白盒交付,本质上就是前两年依赖供应商,后面打算自己做。 整个行业基本上是赔本赚吆喝的阶段。 没有收入,每年还要自己投入几个亿进行模型的训练,人才等。
4/7/2025 3:00:00 AM
朱洁

GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

近来风头正盛的GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。 当GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:多模态大模型(MLLMs)的“创造力天花板”究竟在哪里? 写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……这些对于人类驾轻就熟的任务,对于现有的部分多模态大模型却往往是“高难动作”。
4/7/2025 2:33:00 AM

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化(Group Relative Policy Optimization,GRPO)已被证明是一种有效的算法,可用于训练大语言模型(LLMs),使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调(Supervised Fine-Tuning)与 GRPO 技术的结合,引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。 为了进一步探索其实践应用,我们尝试将这些技术应用于现实场景中。
4/7/2025 2:25:00 AM

智能体|基于ReAct框架:构建极简智能体实践的探索

基于ReAct的方式,手动制作了一个最小的Agent结构(其实更多的是调用工具)。 完整代码可以参考::ReAct: Synergizing Reasoning and Acting in Language Models1、Step 1: 构造大模型首先我们需要一个大模型,这里我使用智谱的glm-4。 glm-4是基于Decoder-Only的通用对话大模型,可以使用API_key来调用模型。
4/7/2025 2:00:00 AM

人工智能催生“零知识”威胁行为者

人工智能是一把 双刃剑。 一方面,人工智能帮助人们更好更快地完成工作;另一方面,它也使心怀恶意的人成为诈骗者、黑客分子和网络罪犯。 零知识威胁行为者的崛起网络犯罪业务利润丰厚;然而,传统上,只有拥有先进技术技能的人才能从事这一行业。
4/7/2025 1:45:00 AM
何威风

物联网人工智能关键技术和技巧

人工智能在实现物联网功能方面发挥着至关重要的作用。 让我们探索推动人工智能和物联网融合、赋能智能和自主系统的关键技术和技巧。 使用人工智能分析物联网数据的机器学习算法机器学习构成了物联网人工智能的基础,使设备能够学习模式、做出预测并适应不断变化的环境。
4/7/2025 1:30:00 AM
chris han

PandasAI:当数据分析遇上自然语言处理

数据科学的新范式在数据爆炸的时代,传统的数据分析工具正面临着前所未有的挑战。 数据科学家们常常需要花费70%的时间在数据清洗和探索上,而真正的价值创造时间却被大幅压缩。 PandasAI的出现,正在改变这一现状——它将生成式AI的强大能力注入到经典的Pandas生态中,创造了一种全新的对话式数据分析体验。
4/7/2025 1:25:00 AM
云朵君

DeepSeek AI时代下,数字化转型的本质:拼的不是技术了,是人

你见过多少数字化转型的尝试,最终变成了买软件、堆硬件的采购工程? 又有多少企业花了大价钱引入先进系统,却发现员工仍在用Excel表格手动录入数据?  数字化转型已成为每个企业的必修课,但成功率却惊人地低。
4/7/2025 1:00:00 AM
大数据AI智能圈

DeepSeek再好,还得先进行数据清洗!

数据分析师的日常,有大半时间都在和数据"搏斗"。 每当接到一份数据,第一反应往往是叹气: "这数据质量...又得清洗半天。 " 数据清洗就像是数据分析的"地基工程",地基不牢,上层再漂亮也会坍塌。
4/7/2025 12:30:00 AM

C#搞AI?用ML.NET实现ChatGPT本地化部署!代码全开源

在人工智能蓬勃发展的当下,ChatGPT这类大型语言模型吸引了全球目光。 它强大的自然语言处理能力,能实现智能对话、文本生成等多种功能。 但在实际应用中,出于数据安全、网络限制等因素考量,将ChatGPT本地化部署成为众多开发者的迫切需求。
4/7/2025 12:22:00 AM
conan

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业,甚至让 OpenAI 的 CEO 山姆·奥特曼(Sam Altman)都直呼:“我也看不懂眼前发生的一切! ”图片传统的设计软件,比如 Photoshop,现在可真是如临大敌了。 一、图像融合的能力彻底超越传统工具 来看一个让人震惊的图像融合实例:图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上,对光影和角度的细节通常还要手动调整。
4/7/2025 12:00:00 AM
dev

多模态模型结构与训练总结

01、模型结构一般的多模态模型架构包含5个部分,分别是:模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。 模态编码器(Modality Encoder, ME)将多种模态输入编码成特征表示,公式如下X表示模态,表示各种预训练好的编码器。 目前模态主要分为:视觉模态、语音模态、3D点云模态,其中视觉模态主要包括图像和视频,对于视频,视频通常被均匀采样成5帧图像,然后进行与图像相同的预处理。
4/7/2025 12:00:00 AM
Goldma

Meta LIama 4 重夺开源第一:DeepSeek 同等代码能力但参数减半,一张 H100 就能跑,还有两万亿参数超大杯

Meta 官推激情表示,这些 Llama 4 模型标志着 Llama 生态系统新时代 —— 原生多模态 AI 创新的开始。
4/6/2025 10:48:30 PM
汪淼