AI在线 AI在线

逆天强大!Spring AI 身份证识别,图片分析真牛啊

环境:SpringBoot3.4.21. 简介人类处理知识时,会同时通过多种数据输入模式进行。 我们的学习方式、经验积累本质上都是多模态的。

环境:SpringBoot3.4.2

1. 简介

人类处理知识时,会同时通过多种数据输入模式进行。我们的学习方式、经验积累本质上都是多模态的。我们并非仅依赖视觉、仅依赖听觉或仅依赖文本,而是综合运用多种感官。

与之相反,传统机器学习往往专注于针对单一模态数据进行处理的专用模型。例如,我们开发了用于文本转语音或语音转文本任务的音频模型,以及用于目标检测和分类等任务的计算机视觉模型。

然而,新一轮的多模态大型语言模型浪潮正悄然兴起。例如,OpenAI 的 GPT-4o、谷歌的 Vertex AI Gemini 1.5、Anthropic 的 Claude3,以及开源模型 Llama3.2、LLaVA 和 BakLLaVA 等,均能够接受多种输入(包括文本、图像、音频和视频),并通过整合这些输入生成文本响应。

Spring AI 多模态能力

多模态(Multimodality)指模型能够同时理解并处理来自多种来源的信息,涵盖文本、图像、音频及其他数据格式。

Spring AI 的 Message API(消息接口) 为多模态大型语言模型(LLMs)提供了所有必要的抽象层支持,开发者可通过该接口实现跨模态数据的无缝整合与交互,无需底层适配即可构建支持文本、图像、音频等多输入源的AI应用。

Spring AI Message APISpring AI Message API

逆天强大!Spring AI 身份证识别,图片分析真牛啊说明:

UserMessage 的 content 字段 用于承载主要文本输入,而可选的 media 字段 则支持添加一种或多种跨模态附加内容(如图像、音频、视频等)。字段通过 MimeType 明确标识模态类型,以定义数据格式(如 image/jpeg、audio/mp3)。

接下来,我们将通过实例演示有关图片识别的实例。

2.实战案例

准备环境

复制
<dependency>
  <groupId>org.springframework.ai</groupId>
  <artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>

配置文件

复制
spring:
  ai:
    openai:
      api-key: sk-xxxooo
      base-url: https://api.xty.app
      chat:
        options:
          model: gpt-4

2.1 图片分析

首先,我们准备如下的这张图片,我们对该图片进行分析,看看大模型能分析出什么内容来:

示例代码:

复制
private final ChatClient chatClient ;
@GetMapping("/image")
public String image() {
  return this.chatClient
      .prompt()
      .user(u -> u.text("你看到了什么?")
          .media(MimeTypeUtils.IMAGE_PNG, new ClassPathResource("static/multimodal.test.png")))
      .call()
      .content() ;
}

输出结果

图片图片

正确的分析出图片中的内容。

2.2 身份证识别

下面我们在准备一张身份证,看看是否能正确的读取出身份证中的内容信息。

图片图片

示例代码:

复制
@GetMapping("/sfz")
public String sfz() {
  String text = """
        输出该身份证中的姓名(name), 性别(sex), 民族(nation), 出生(birth), 住址(address), 身份证号码(idNo)。
        最终以json格式输出。
      """;
  return this.chatClient
      .prompt()
      .user(u -> {
        u.text(text)
            .media(MimeTypeUtils.IMAGE_PNG, new ClassPathResource("static/sfz.jpg"));
      })
      .call()
      .content() ;
}

输出结果

图片图片

正确识别出身份证中的所有信息。

2.3 结构化输出

以下示例将演示通过上传汽车图片方式分析图片,并由系统以结构化 JSON 格式返回分析结果(例如各颜色,总数)。

定义数据模型

复制
public record CarCount(List<CarColorCount> counts, int total) {
}
public record CarColorCount(String color, int count) {
}

接着,定义如下Service 发送图片到OpenAI进行分析

复制
@Service
public class CarCountService {
  private final ChatClient chatClient;
  public CarCountService(ChatClient.Builder chatClientBuilder) {
    this.chatClient = chatClientBuilder.build();
  }
  public CarCount getCarCount(InputStream imageInputStream, String contentType, String colors) {
    String text = """
          1.统计图像中不同颜色车辆的数量
          2.用户通过提示词(prompt)提供图像,并指定需统计的颜色
          3.仅统计用户提示词中明确指定的颜色(忽略其他颜色)
          4.过滤用户提示词中的非颜色信息(如无关文本或无效描述)
          5.若用户提示词中未指定任何颜色,直接返回总数为 0
        """ ;
    return chatClient.prompt()
        .system(systemMessage -> systemMessage
            .text(text))
        .user(userMessage -> userMessage
            .text(colors)
            .media(MimeTypeUtils.parseMimeType(contentType), new InputStreamResource(imageInputStream)))
        .call()
        .entity(CarCount.class);
  }
}

REST接口

复制
@PostMapping("/count")
public ResponseEntity<?> getCarCounts(@RequestParam("colors") String colors,
    @RequestParam("file") MultipartFile file) {
  try (InputStream inputStream = file.getInputStream()) {
    var carCount = carCountService.getCarCount(inputStream, file.getContentType(), colors);
    return ResponseEntity.ok(carCount) ;
  } catch (IOException e) {
    return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body("图片上传失败");
  }
}

接下来,我们准备如下的图片

图片图片

输出结果

图片图片

相关资讯

聊聊SpringAI流式输出的底层实现?

在 Spring AI 中,流式输出(Streaming Output)是一种逐步返回 AI 模型生成结果的技术,允许服务器将响应内容分批次实时传输给客户端,而不是等待全部内容生成完毕后再一次性返回。 这种机制能显著提升用户体验,尤其适用于大模型响应较慢的场景(如生成长文本或复杂推理结果)。 技术实现在 Spring AI 中流式输出的实现有以下两种方式:通过 ChatModel 实现流式输出。
4/24/2025 12:00:00 AM
磊哥

阿里出手了:Spring AI Alibaba正式版发布!

Spring AI Alibaba 是基于 Spring AI 构建的,专门针对阿里云生态(如通义千问、OSS 等)进行深度适配和功能增强。 Spring AI Alibaba 提供高层次的 AI API 抽象与云原生基础设施集成方案,帮助开发者快速构建 AI 应用。 主要功能Spring AI Alibaba 提供的主要功能如下:开发复杂 AI 应用的高阶抽象 Fluent API — ChatClient。
6/13/2025 6:20:02 PM
磊哥

面试官:如何实现大模型的连续对话?

所有的大模型本身是不进行信息存储的,也不提供连续对话功能,所以想要实现连续对话功能需要开发者自己写代码才能实现。 那怎么才能实现大模型的连续对话功能呢? 大模型连续对话功能不同的框架实现也是不同的,以行业使用最多的 Java AI 框架 Spring AI 和 Spring AI Alibaba 为例,给大家演示一下它们连续对话是如何实现的。
7/21/2025 7:19:00 AM
磊哥
  • 1