添加图片理解Skill

更新时间:
复制为 MD 格式

百炼 Coding Plan 中的部分模型(如 qwen3.5-plus、kimi-k2.5)原生支持视觉理解,可直接处理图片输入。对于 glm-5、MiniMax-M2.5 等纯文本模型,可通过添加本地 Skill 使其获得视觉能力。本文介绍如何在 Claude Code 中使用模型的视觉理解能力。

说明

运行图片理解 Skill 会消耗 Coding Plan 额度,无其他收费项。

前提条件

  1. 已订阅 Coding Plan,详情请参见快速开始

  2. 已在 Coding Plan 工具中完成接入配置,且能正常对话,详情请参见接入AI工具

视觉支持情况

模型

是否支持视觉

说明

  • qwen3.5-plus

  • kimi-k2.5

无需额外配置,可直接传入图片

  • qwen3-max-2026-01-23

  • qwen3-coder-next

  • qwen3-coder-plus

  • glm-5

  • glm-4.7

  • MiniMax-M2.5

需通过 Skill 辅助模型获得视觉能力

如需实现图片理解,请使用qwen3.5-pluskimi-k2.5模型。若使用Claude Code,可添加 Skill 实现图片理解。

添加视觉能力

添加Skill

在项目目录下的 .claude 文件夹中新建 skills/image-analyzer 目录,在该目录下创建 SKILL.md 文件,并写入以下内容:

---
name: image-analyzer
description: 帮助没有视觉能力的模型进行图像理解。当需要分析图像内容、提取图片中的信息、文字、界面元素,或理解截图、图表、架构图等任何视觉内容时,使用此技能,传入图片路径即可获得描述信息。
model: qwen3.5-plus
---
qwen3.5-plus具有视觉理解能力,请直接使用qwen3.5-plus模型进行图片理解。

创建完成后的目录结构如下:

.claude/
└── skills/
    └── image-analyzer/
        └── SKILL.md

使用示例

以 Claude Code + glm-5 为例:

  1. 在项目目录下运行claude启动Claude Code,并运行/model glm-5切换到glm-5模型;

  2. 下载aliyun.png到项目目录下,并提问:请加载image-analyzer skill,描述一下 aliyun.png banner位置是什么信息?可收到如下回复:

    image.png