返回上一级

为 Automate 自动化接入豆包ai 识别图形验证码

最近帮朋友研究电脑自动执行工作流,让一些电脑上枯燥重复的手工作业流程实现全自动化。

开始就陷入一个误区,想让ai操作电脑

以本地系统级Anget的 OmniParser 为例,上手门槛很高,加ai操作不确定性太多,也需要高配算力来支撑图像识别,对于白领的普通办公电脑显然不现实。而第三方服务又有数据泄露隐患。

一段瞎折腾后发现,Windows11 自带的 Power Automate 完全可以胜任。

Power Automate 允许通过模仿用户界面操作(例如单击和键盘输入),在 Windows 桌面上实现网站和桌面应用程序自动化。

唯一美中不足的就是没办法识别图形验证码。

这次就利用豆包 ai 的接口来解决这个问题。

获取豆包API Key

注册登录字节AI大模型后台:https://console.volcengine.com/auth/login

创建API Key,权限全打开就行了,当然也可以只开放 Doubao-1.5-vision-pro

https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D

进入开通管理把模型全打开

https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenModelVisible=false

注新用户赠送50万tokens推理额度,加上安心体验,超出额度会自动断开。

对于只用来识别验证码足够了。

什么你问我额度用完怎么办?

网页版豆包不是无限额度吗,直接让 Automate 自动打开网页去问豆包,无非更繁琐罢了。

Power Automate 调用豆包

登录流程很简单

  • 打开页面
  • 判断登录
    • 需要登录
    • 填充账号和密码
    • 保存验证码图片到本地
    • 请求豆包api
    • 拿到内容填充验证码
  • 业务操作
  • 。。。

这次操作主要聚焦在登录图形码验证

重点在于调用web服务请求豆包

格式如下:

URLhttps://ark.cn-beijing.volces.com/api/v3/chat/completions
方法POST
接受application/json
自定义标头Authorization: Bearer 这里填写豆包API Key
内容类型application/json

请求正文:

注意这里的 %Base64Text% 是上一步图片转成base64的变量,记得参照修改。

{
  "model": "doubao-1.5-vision-pro-250328",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "识别这张图形验证码中的4个字符,仅返回纯字符(数字),忽略干扰线、噪点、旋转,按从左到右顺序返回,不要任何多余文字"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,%Base64Text%"
          }
        }
      ]
    }
  ],
  "temperature": 0.0,
  "max_tokens": 10
}

完整截图:

这里有一个天坑,直接这样请求会返回:

{"code":"InvalidParameter","message":"we could not parse the JSON body of your request Request id: 0217648230058828cd1c854cd9412bce1ed325c44488d9efc4f58","param":"","type":"Bad Request"}}

原因在于 Power Automate 的 调用Web服务 默认会编码请求正文。

所以还需要点开 高级 进行修改:

把编码请求正文按钮关闭

拿到返回结果后,将返回的JSON转换为自定义对象

最后解析json拿到内容

%JsonAsCustomObject['choices'][0]['message']['content']%

效果

3141,目标达成!

评论 (2)

回复 毛毛虫

取消回复