minimax-vision-captcha
// 使用MiniMax视觉模型识别图片中的验证码、滑块位置、文字内容等。适用于需要AI视觉分析的场景,如微信验证码识别、网页截图分析、图片文字提取。当需要识别图片内容、分析验证码、提取截图信息时使用此技能。
$ git log --oneline --stat
stars:1,933
forks:367
updated:March 4, 2026
SKILL.mdreadonly
SKILL.md Frontmatter
nameminimax-vision-captcha
description使用MiniMax视觉模型识别图片中的验证码、滑块位置、文字内容等。适用于需要AI视觉分析的场景,如微信验证码识别、网页截图分析、图片文字提取。当需要识别图片内容、分析验证码、提取截图信息时使用此技能。
MiniMax Vision Captcha Skill
使用MiniMax MCP的视觉理解能力识别图片中的内容,解决验证码、滑块分析等问题。
快速开始
1. 截图
使用OpenClaw浏览器截图:
browser action=screenshot targetId=<页面ID>
或使用OpenClaw的snapshot获取页面结构后分析。
2. 调用MiniMax视觉识别
mcporter call minimax-coding-plan.understand_image prompt="描述图片内容" image_source="/path/to/screenshot.png"
3. 分析结果
根据返回结果进行下一步操作。
典型使用场景
场景1:微信滑块验证码
- 访问微信页面,触发验证码
- 截图:
browser action=screenshot - 发送给视觉模型分析
- 获取滑块位置描述
场景2:图片文字识别
- 截图或获取图片路径
- 调用视觉模型识别文字
- 返回文字内容
场景3:网页元素分析
- 使用snapshot获取页面结构
- 分析特定元素的可见内容和属性
注意事项
- 确保MiniMax MCP已配置
- 图片路径需要是服务器可访问的绝对路径
- 滑块验证码需要描述缺口位置(左侧/右侧/距离)
依赖
- minimax-coding-plan MCP
- OpenClaw浏览器工具