Ollama 本地大模型与多模态大模型

传统的大模型开发需要大量的 GPU 资源，以参数量最小的 Llama 2 7B 为例，也需要 14G 显存，而且每一种大模型都有自己的开发接口，这导致普通人很难在自己的本地环境构建大模型、体验大模型。所以，Ollama 构建了一个开源大模型的仓库，统一了各个大模型的开发接口，让普通开发者可以非常方便地下载，安装和使用各种大模型。本质上，Ollama 是一套构建和运行大模型的开发框架，它采用的模型量化技术进一步降低了大模型对显存的需求。

传统的大模型开发需要大量的 GPU 资源，以参数量最小的 Llama 2 7B 为例，也需要 14G 显存，而且每一种大模型都有自己的开发接口，这导致普通人很难在自己的本地环境构建大模型、体验大模型。

所以，Ollama 构建了一个开源大模型的仓库，统一了各个大模型的开发接口，让普通开发者可以非常方便地下载，安装和使用各种大模型。

本质上，Ollama 是一套构建和运行大模型的开发框架，它采用的模型量化技术进一步降低了大模型对显存的需求。

模型量化

模型量化 (Model Quantization) 是一种用于减小深度学习模型大小并加快推理速度的技术。简单来说，就是把模型中原本用高精度浮点数（如32位浮点数，FP32）表示的参数（权重和激活值），转换成低精度的定点数（如8位整数，INT8）。

举个简单的例子，一个普通的浮点数就像是用很长的十进制数来表示一个数字，比如 3.1415926535...。而一个整数就像是用一个简单的、没有小数点的数字来表示，比如 3。

在深度学习模型中，大部分参数和计算都需要非常高的精度。但研究发现，在推理阶段，模型并不总是需要这么高的精度。很多时候，我们可以用更小的、更简单的数字来近似表示这些参数，而模型性能（如准确率）的损失却非常小，甚至可以忽略不计。

命令行运行

从 Ollama 官网可以看到，Ollama 已经实现了多平台支持，包括 MacOS，Linux 和 Windows。

图片

环境是一台 24G 显存的 4090 服务器，你也可以看下自己的配置，显存越高运行越顺畅。

图片

Linux 环境下安装 Ollama 只需要一个简单的命令行，非常方便。

复制

下面是 Ollama 的模型仓库截图，你可以随时切换模型，用 pull 命令就能下载模型。

图片

接着，你可以使用 ollama run 命令进入对话模式，从命令行运行效果看，我们已经可以将其看做命令行版本的 “GPT 大模型”了。

复制

接口 API

我们用 Ollama 的 Python 接口来定制自己的大模型。

这里面有一个 Modelfile，它是 Ollama 大模型的配置文件，你可以修改各种配置，然后运行接口程序。比如我就自己配置了一个基于 Llama2 的大模型，设置了温度，token 数量和系统提示词。

复制

然后，创建一个 Modelfile 文件，在 Linux 中运行自定义的大模型。

复制

你还可以用 Python 代码调用大模型的接口。

复制

好了，有了大模型接口支持，你就可以在 Ollama 框架下编写自己的 AI 应用了。

模型微调

Ollama 也支持大模型微调。假设我们的目标是要实现一个二进制跳动专有小助理的大模型，就可以在 Llama2 的模型基础上做数据微调，最终得到的专用模型还可以在 Ollama 架构下运行。

模型微调的核心是整理小助理相关的问题数据集，比如下面这个数据集的例子。

复制

你还可以使用 Hugging Face 的 transformers 库结合上述数据进行微调, 这样就可以让微调后的大模型学习到小助理日常的对话方式和常见的知识问答，下面是示例代码。

复制

我把微调完成后生成新的模型命名为 fine_tuned_llama。在此基础上修改 Python 代码里的模型名称，就可以实现小助理专用模型的调用了。

复制

什么是多模态大模型？

好了，到目前为止，我们的例子都是文本大模型。但是，我们的目标是实现一个真正的语音小助手，那就还需要进一步了解多模态大模型。

OpenAI 的 GPT-4 已经实现了大模型的多模态，包括图片大模型 DALL-E 3，TTS 语音模型和视频大模型。简单地说，除了文本，还支持其他输入输出格式的就叫多模态大模型。很多人会认为图片，语音，视频大模型的实现和语言大模型完全不一样，其实不然。

多模态的原理

关于多模态大模型的原理，我曾经接受过有一个博主的点醒，他说：多模态模型和语言模型一样本质就是一个序列化模型。因此多模态只是语言大模型的扩展。

以相对简单的语音模型为例，先看下面的语音频谱图。下面的频谱图展示了音频信号里三个维度的信息。

图片

时间（Time）：这是横轴，表示音频随时间的变化而变化。每个时间点对应音频信号的一帧。
频率（Frequency）：这是纵轴，表示音频信号的频率成分。
分贝（dB）：这是颜色表示的信息，表示每个时间 - 频率点上的能量强度。这张图右侧的颜色条（colorbar）显示的就是不同颜色对应的分贝值。

我们假设这个音频对应的文本是极客时间是一个……。从频谱图上，能非常明显地看到时间线的一个颜色条对应一个中文字，不管音频的三个维度怎么表示，我们都可以把这个语音看做和文本一样的序列。

图片

多模态语音模型也确实可以用 Transformer 架构来训练。只要经过足够的文本 - 语音序列数据训练，大模型就可以准确识别出底层的文本 - 语音数据模式，从而实现文本 - 语音的翻译。

那么图片多模态模型又是怎么实现的呢？其实原理也是相通的。

首先，图像需要被处理成适合 Transformer 输入的格式。通常来说，图像会被分割成小块（patches），每个小块会被展平成一个向量，然后输入到 Transformer 中。以 32 x 32 像素的图像为例，假设我们将图像分割成 4 x 4 的小块（即每个小块包含 8 x 8 个像素），那么整个图像就会被分割成 16 个小块。

图片