AI在线 AI在线

大模型

​阿里 AI 工程师余亮荣获 “全国劳动模范” 称号

在 “庆祝中华全国总工会成立100周年暨全国劳动模范和先进工作者表彰大会” 上,阿里巴巴的员工余亮荣获 “全国劳动模范” 荣誉称号,这也是阿里 AI 工程师首次获得这一殊荣。 余亮是一位专注于大数据和智慧城市领域的杰出工程师,他的贡献在行业内得到了广泛认可。 余亮毕业于武汉大学,曾在浙江大学及海外顶尖高校和研究机构进行博士后研究,并担任研究员和科学家等职务。
4/28/2025 3:00:50 PM
AI在线

字节跳动启动 “Top Seed” 计划,面向 2026 届博士生招募 AI 人才

字节跳动近日宣布正式启动2026届 “Top Seed” 大模型顶尖人才校招计划,计划招募约30位优秀博士生。 这一项目专注于前沿的人工智能领域,涵盖大语言模型、机器学习算法与系统、多模态生成与理解、语音处理等研究方向。 字节跳动希望通过此举,吸引那些在大模型研究领域具备极强潜力和热情的年轻才俊。
4/28/2025 12:00:40 PM
AI在线

ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live

自 GPT-4 发布至今已有两年,但对大语言模型的研究并没有放缓,我们仍处在一个技术进步涌现的时代。 Anthropic 于 2024 年11月发布 MCP,成为接通 AI 生态的桥梁,自主的 Agent 工作流距我们更进一步。 GPT-4o、GPT-4.1时隔仅一个月先后发布,实现上下文处理能力八倍提升。
4/28/2025 11:19:00 AM
郑佳美||梁丙鉴

大模型重复生成内容:根因剖析与优化策略

前言最近在调试大模型应用过程中,遇到了如下问题:复制大模型首次生成内容与「重新生成」两次返回的内容近乎完全相同,几乎没有体现出任何差异性。 面对这种情况,造成大模型输出高度相似的原因是什么呢? 我们又该采取怎样的调整策略,才能使重新生成的内容与前次存在明显差异,提升输出的多样性呢?
4/28/2025 2:22:00 AM
张张

Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
4/28/2025 2:03:00 AM
余俊晖

字节跳动启动 Top Seed 大模型顶尖人才计划 2026 届校招,计划招募 30 位顶尖博士

字节跳动正式启动2026届Top Seed校招,计划招募30位顶尖博士,研究方向涵盖大语言模型、多模态生成等前沿领域。不限专业背景,更看重研究潜力与热情。#字节跳动校招# #大模型人才#
4/27/2025 5:56:06 PM
远洋

答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍

此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论
4/27/2025 2:57:01 PM
汐元

一日一技:如何快速生成大模型工具调用的JSON Schema

在使用大模型的工具调用时,我们需要编写JSON Schema,例如下图的tools字段的值:图片这个Schema写起来非常麻烦,括号太多了,看着眼花。 不信你肉眼看看,你需要几秒钟才能分清楚type: "object"跟哪个字段在同一层级? 这个Schema有没有什么办法自动生成呢?
4/27/2025 7:57:50 AM
kingname

大模型应用系列:两万字解读MCP

MCP通过建立统一的工具连接规范,为Agent开发提供了标准化接入框架。 该协议不仅简化了Agent与多样化系统的集成过程,还显著扩展了Agent的任务处理能力,使开发者能够更高效地构建具备复杂功能的智能体,实现从基础查询到业务决策的多层次应用。 那么,如何进一步理解MCP呢?
4/27/2025 2:22:00 AM
曹洪伟

太争气了!百度的底气,李彦宏的决心:3万卡国产自研集群;一口气九个重磅发布,全方位支持MCP,百度在大模型应用时代的出招与押注

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)4月25日,一年一度的百度开发者大会会场如约到来,这是中国国内首家AI巨头在后DeepSeek时代的全新产品的公开亮相。 进入2025以后,李彦宏带领下的百度正在如何思考新的AI应用形态? 百度在AI应用爆发时代都做了哪些准备?
4/25/2025 1:51:49 PM
云昭

机械臂+大模型+多模态:打造人机协作具身智能体

在人工智能快速发展的浪潮中,多模态大模型已成为技术前沿,使AI能够同时理解文本、图像、音频等多种信息。 这一突破为具身智能体开辟了新天地。 最近我在github中就找到了一个这样好玩的项目vlm_arm,其将机械臂与多模态大模型结合,打造一个能听人话、看图像、执行精准操作的人机协作智能体系统。
4/25/2025 2:30:00 AM
贝塔街的万事屋

揭秘大模型的魔法:训练你的tokenizer

大家好,我是写代码的中年人。 在这个人人谈论“Token量”、“百万上下文”、“按Token计费”的AI时代,“Tokenizer(分词器)”这个词频频出现在开发者和研究者的视野中。 它是连接自然语言与神经网络之间的一座桥梁,是大模型运行逻辑中至关重要的一环。
4/25/2025 12:20:00 AM
写代码的中年人

谷歌“Wi-Fi密码”式的最瘦大模型

Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。 这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。
4/24/2025 2:13:00 PM
文摘菌

大模型向量去重的N种解决方案!

简单来说,“向量”Vector 是大模型(LLM)在搜索时使用的一种“技术手段”,通过向量比对,大模型能找出问题的相关答案,并且进行智能回答。 向量简介Vector 是向量或矢量的意思,向量是数学里的概念,而矢量是物理里的概念,但二者描述的是同一件事。 “定义:向量是用于表示具有大小和方向的量。
4/24/2025 11:09:13 AM
磊哥

大模型数据味蕾论

AI大模型就像一位厨师,预训练数据就是这位厨师的味蕾。  没有经过训练的味蕾,再好的食材也无法变成美味佳肴。 没有优质的预训练数据,再强大的计算资源也打造不出卓越大模型。
4/24/2025 9:26:13 AM
大数据AI智能圈

你的数据有多好,你的模型就有多强

在AI大战烽火连天的今天,所有人都在追逐参数规模的增长和架构的优化。 然而,行业内的一个秘密正在悄然成形:拥有独特数据资产的企业正在构筑起难以逾越的竞争壁垒。 数据,而非算法,正成为区分强弱的决定性要素。
4/24/2025 12:40:00 AM
大数据AI智能圈

学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石"

【研究颠覆】清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。 研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。 【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval 等测试中单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略【学界争议】研究结果引发学界激烈讨论:支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理【本质思考】研究团队提出关键区分:能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
4/23/2025 2:00:43 PM
AI在线

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。
4/23/2025 12:11:40 PM
文摘菌