Hcaptcha 自动识别/打码解决方案

一、什么是 Hcaptcha?

通过以下图可以直观了解 Hcaptcha 的工作方式
在这里插入图片描述

二、Hcaptcha 验证流程
1. 环境检测

如果环境检测得分较高,则可以直接获取 Token。此步骤是否成功,主要取决于以下四个因素:

  1. 浏览器指纹信息
  2. 行为数据
  3. IP 质量
  4. 网站设置的安全级别

需要注意的是,如果网站设置为每次必定出现图像识别验证,那么即使前三项表现优秀,也无法跳过验证。此外,如果浏览器检测到自动脚本(如 Selenium 等),通常会直接触发验证码。

2. 图像识别

如果环境检测未通过,则进入图像识别环节,进一步进行人工验证。图像识别的核心因素包括:

  • 识别结果
  • 得分

即便返回了 Token,也并不代表认证成功。一些网站的安全级别较高,如果得分低,仍然会导致验证失败。得分的高低主要参考环境检测中的前三项。

目前 AI 模型已非常成熟,选择合适的模型即可达到较高的识别效果。

3. 429 错误或请求无响应

如果出现 429 错误或请求一直无响应,通常说明 IP 地址已被封禁。此时需要更换 IP,等待一段时间后再尝试。


三、如何实现自动识别

实现自动识别的前提是已训练出高准确率的模型,且正确率需达到 95% 以上。若能达到 99%,则基本可以满足需求。

基础方案一:浏览器脚本 + 图像识别

这是最简单的实现方式。通过自动脚本(如 Selenium)打开网站后,检测到图像识别任务时,采集图像信息并提交给 AI 模型进行识别,随后模拟点击完成验证。

此方案稳定性较高,适用于大多数场景。尽管脚本对得分权重影响较低,但通常会触发验证码。

进阶方案二:浏览器插件 + 图像识别

此方案与基础方案类似,只是将脚本封装为浏览器插件。插件检测到图像识别任务后,采集图片并提交给 AI 模型进行识别,随后模拟点击完成验证。

该方案更为轻量化,且在某些情况下可能无需触发图像识别。

顶级方案三:协议 + 图像识别

相比前两种方法,此方案无需依赖浏览器,具有更高的效率和更低的资源占用。

Hcaptcha 每次请求会返回一个 req,下次请求需要附带 req、环境信息以及一个重要的 n 值。

  • 环境信息:未加密,可轻松模拟。高质量的环境信息配合优质 IP,可能无需图像识别即可通过验证。
  • n 值:通过分析源码得知,n 值由 req 计算得出,核心在于破解其算法。

此方案对技术要求较高,但效果显著。


四、学习与测试

浙江丹里科技专注于解决验证码问题并突破各种安全防线。目前 Hcaptcha 已提供相关接口,用户可直接调用获取结果。其他验证码类型的解决方案也在逐步上线中。

详情请见 :解决验证码recaptcha、cloudflare、incapsula

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐