大型语言模型
五款小型多模态AI模型及其功能
译者 | 晶颜审校 | 重楼在过去几年里,我们已经见证了大型语言模型(LLM)的飞速发展,数十亿个参数的基础助力它们成为分析、总结和生成文本及图像,或者创建聊天机器人等任务的强大工具。 所有这些功能都有一些明显的限制,特别是如果用户没有足够的资金或硬件来容纳这些LLM所需的大量计算资源。 在这种情况下,小型语言模型(SLM)应运而生,为资源受限的用户提供了所需服务。
12/9/2024 8:15:43 AM
晶颜
如何使用AutoGen AI技术实现多代理对话
译者 | 李睿审校 | 重楼本文将介绍一个实验,展示多个人工智能代理如何通过群聊方式进行互动,并根据具体的业务需求协同工作,共同生成解决方案的架构。 本文介绍如何使用Databricks Community Edition (CE)(一个免费的基于云的平台)运行一些基本的人工智能Python代码。 因为只处理开源库,所以这个实验可以很容易地在任何Python/PySpark环境中复现。
12/5/2024 8:15:00 AM
李睿
关于 Meta Llama 3,你知道多少?
2024年,对于人工智能领域来说可谓意义非凡。 继 OpenAI 推出备受赞誉的 GPT-4o mini后,Meta 的 Llama 3.1 模型亦在 . 7月23日 惊艳亮相,再一次掀起了新一轮人工智能热潮。
11/29/2024 4:55:04 PM
架构驿站
AI代理即将投入工作 企业需要了解什么?
AI代理工具有望实现大量数字流程的自动化,而这些流程目前是由办公室工作人员操作的。 但对于面临工作方式又一次转变的企业来说,区分长期潜力与短期现实可能是一项挑战。 AI代理很快就会变得无处不在,复杂业务流程实现自动化,为员工处理日常任务——至少这是各种软件厂商的说法,这些厂商正在迅速将智能机器人添加到各种工作应用中。
11/28/2024 2:57:26 PM
标记化在LLM中有怎样的重要作用?
译者 | 李睿审校 | 重楼如今,GPT-3、GPT-4或谷歌的BERT等大型语言模型(LLM)已经成为人工智能理解和处理人类语言的重要组成部分。 但在这些模型展现出令人印象深刻的能力背后,却隐藏着一个很容易被忽视的过程:标记化。 本文将解释标记化的定义,标记化如此重要的原因,以及在实际应用中是否能够规避这一步骤。
11/28/2024 8:15:44 AM
李睿
如何在组织中启用机器学习
译者 | 李睿审校 | 重楼计划在组织内部引入人工智能/机器学习的产品经理通常会提出这样一个问题:“我从哪里开始着手? ”对于缺乏该领域经验的组织来说,深入研究人工智能/机器学习可能会让人感到不知所措。 构建机器学习产品需要不同类型的技能和流程,而这些技能和流程需要逐步被吸纳并融入组织的日常运作中。
11/26/2024 8:09:40 AM
李睿
部署自己的大型语言模型的七种方法
从零开始构建一个新的大型语言模型(LLM)是一种选择,但对于许多公司来说,成本可能高得难以承受。 幸运的是,还有其他几种部署定制LLM的方法,这些方法更快、更容易,而且最重要的是,更便宜。 GenAI是历史上发展最快的新技术。
11/21/2024 4:30:21 PM
Maria Korolov
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。 CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。 然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。
11/21/2024 1:02:42 PM
佚名
微调大型语言模型(LLM)的五个技巧
译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。 为什么微调至关重要大型语言模型(LLM)配备了处理广泛任务的通用能力,包括文本生成、翻译、提取摘要和回答问题。 尽管LLM的性能表现非常强大,但它们在特定的任务导向型问题或特定领域(例如医学和法律等)上仍然效果不佳。
11/21/2024 8:22:45 AM
李睿
关于战略人工智能的深度综述
译者 | 朱先忠审校 | 重楼本文将全面探索战略性人工智能的概念、发展及相关博弈论理论,并对战略人工智能的未来发展方向提出建议。 开场白1997年5月11日,纽约市。 这是纽约市一个美丽的春日,天空晴朗,气温攀升至20摄氏度。
11/14/2024 8:22:34 AM
朱先忠
为了创造商业价值,需要充分利用企业的数据和人工智能
尽管人们生活在一个日益数据驱动的世界,但大多数公司并没有采用数据驱动的商业模式。 推动Alphabet、Meta和亚马逊等企业成功的网络效应良性循环,并不适用于销售传统产品和服务的组织。 然而,从日常业务流程生成的专有数据中获取更多信息的工具正在变得广泛可用,并且可以帮助企业开发竞争优势。
11/11/2024 1:29:51 PM
Harris编译
最小化的递归神经网络RNN为Transformer提供了快速高效的替代方案
译者 | 李睿审校 | 重楼Transformer如今已经成为大型语言模型(LLM)和其他序列处理应用程序的主要架构。 然而,它们固有的二次方计算复杂性成为了将Transformer扩展至超长序列时的巨大障碍,显著增加了成本。 这引发了人们对具有线性复杂性和恒定内存需求的架构的兴趣。
11/11/2024 8:11:49 AM
李睿
要创造商业价值,利用AI来利用公司的数据
用专有数据训练大型语言模型能为你带来竞争优势吗?尽管我们生活在一个日益数据驱动的世界中,但大多数公司并未采用数据驱动的商业模式。 像Alphabet、Meta和亚马逊这样的企业凭借网络效应形成的良性循环而取得成功,但这种模式对于销售传统产品和服务的组织来说却难以实现,然而,如今已能广泛获取各种工具来充分利用日常业务流程中生成的专有数据,这些工具可能帮助你的公司形成竞争优势。 随着市场竞争的加剧,利用数据构建防御性护城河至关重要。
11/5/2024 2:45:26 PM
Martin De Saulles
基于PyTorch的大语言模型微调指南:Torchtune完整教程与代码示例
近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理(Natural Language Processing, NLP)领域取得了显著进展。 这些模型通过在大规模文本数据上进行预训练,能够习得语言的基本特征和语义,从而在各种NLP任务上取得了突破性的表现。 为了将预训练的LLM应用于特定领域或任务,通常需要在领域特定的数据集上对模型进行微调(Fine-tuning)。
11/4/2024 2:42:12 PM
佚名
COLM 24 | 从正确中学习?大模型的自我纠正新视角
Ixiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
9/17/2024 2:02:00 PM
机器之心
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
还有 10 个月,2024 年还有很多期待空间。在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。现在,2024 年的第一个月已经过去,也许是时候盘点一番新年首月进展了。近日,AI 研究者 Sebastian Raschka 发布了一份报告,介绍了四篇与上述新阶段有关的重要论文。它们的研究主题简单总结起来是这样:1. 权重平均和模型融合可将多个 LLM
2/22/2024 10:49:00 AM
机器之心
五种资源类别,如何提高大语言模型的资源效率,超详细综述来了
本综述深入探讨了大型语言模型的资源高效化问题。近年来,大型语言模型(LLM)如 OpenAI 的 GPT-3 在人工智能领域取得了显著进展。这些模型,具有庞大的参数量(例如 1750 亿个参数),在复杂度和能力上实现了飞跃。随着 LLM 的发展趋势朝着不断增大的模型规模前进,这些模型在从智能聊天机器人到复杂数据分析,乃至于多领域研究中的应用越发广泛。然而,模型规模的指数级增长带来了巨大的资源需求,尤其是在计算、能源和内存等方面。这些资源的巨大需求使得训练或部署这样庞大的模型成本高昂,尤其是在资源受限的环境(如学术实
1/15/2024 11:22:00 AM
机器之心
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
理论证明!校准的语言模型必然出现幻觉。大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。现在,一项新研究得出结论:「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh
1/2/2024 3:19:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
LLM
生成式
苹果
Claude
Agent
AI新词
神经网络
AI for Science
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
深度学习
预测
伟达
视觉
Transformer
AGI
视频生成
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全