奇葩黑产 | 一秒分辨出杨臣刚、王大治和孙楠，白百何和王珞丹表示不服

发布时间：2017-07-21 09:13 所属栏目：53 来源：雷锋网

导读：雷锋网注：腾讯守护者计划安全团队协助警方打掉市面上最大打码平台“快啊答题”，挖掘出一条从撞库盗号、破解验证码到贩卖公民信息、实施网络诈骗的全链条黑产。该资料由腾讯守护者计划安全团队提供给雷锋网，雷锋网编辑并补充了部分资料。今天中午，宅宅

雷锋网注：腾讯守护者计划安全团队协助警方打掉市面上最大打码平台“快啊答题”，挖掘出一条从撞库盗号、破解验证码到贩卖公民信息、实施网络诈骗的全链条黑产。该资料由腾讯守护者计划安全团队提供给雷锋网，雷锋网编辑并补充了部分资料。

今天中午，宅宅新来的同事“宅二妹”提议来一局“大家来找茬”升级版的游戏。

本着吃完了饭没事做的诚实本能，我敷衍地答应了，毕竟像宅宅的这种火眼金睛十级选手，呵呵，开玩笑呢，来吧，卢瑟！

然后，宅二妹丢出了一张图像，一脸神秘的微笑：

请找出图中的白百何

还好之前白百何出了大新闻，看上去不是特别难。宅宅迅速地找了出来：

然后，宅二妹让我进入第二关：

请分辨出这里的杨臣刚、王大治和孙楠

你厉害，我服气。十级选手在这道题面前也阵亡了……

宅二妹说，你不要伤心，其实第三关更难。

什么？还有变态的第三关？

宅二妹抖抖索索地拿出了一张终极大图：

请找出这里的C杯？

这……

我……

真是一个悲伤的游戏。

“晒密”和“打码”是什么鬼？

更悲伤的是，这种奇葩的“大家来找茬”的类似版其实频频在一些更奇葩的验证码中出现过，比如被全国人民在热门时间集体迁徙时开怼的12306。

对于“验证码”，大家并不陌生。在登录各网站、平台、APP时，经常见到。常见的“验证码”有“字符式”、“字符+点选式”、“滑块拼图式”和难度逆天的“12306式”。

▲字符式

▲字符+点选式

▲滑块拼图式

▲12306式

验证码（CAPTCHA），大家都在生活中或多或少地遇到过，但你可能不知道的是，它本质上是区分计算机和人类的一种程序算法，简单解释是一个答题的验证。系统向请求发起方提问，能正确回答的即是人类，反之则为机器。

不过，允许宅宅先吐个糟，如果是宅二妹给出的那种验证方式+平常12306的一些诡异验证，我真的深深怀疑自己是个机器人。

不过，吐槽归吐槽。

从安全角度看，CAPTCHA 经过不断演化，已成为目前国内外各大互联网公司用于对抗网络黑产恶意行为（如恶意登录）的验证码安全策略，即现在俗称的验证码系统。

简而言之，验证码能帮助区分访问者是不是人类，从而有效对抗大面积的机器访问。

不过，也许你要问，这和黑产有什么关系？

在网络黑产中，不法分子窃取网站数据库后，需要确认帐号对应的密码是否正确，将有价值的数据通过验证的方式筛选出来，这一过程叫“晒密”，即撞库。

而“晒密”最核心的障碍就是互联网公司设置的验证码安全体系。每天面对数以亿计的“晒密”需求，黑产分子不可能人工逐个识别，而是需要提高“晒密”效率，批量识别。

“打码平台”这一专业服务便应运而生。

不要误会，并不是下面这种手残的打码。

“打码平台”通常会与“晒密”软件作者合作：

1)黑产团伙把盗取的帐号密码信息导入到“晒密”软件，“晒密”软件模拟登录协议，向互联网公司服务器发送登录请求。

2)服务器检测到登录异常时，会下发验证码，进行安全策略拦截。

3)“晒密”软件将收到的验证码图片发送给“打码平台”，请求将图片转化为字符。

4)打码平台后台破解验证码，将字符结果返回“晒密”软件，完成“晒密”（撞库）流程。

5)这些“晒密”后得到的用户信息，则可能被骗子直接用于实施诈骗犯罪。

“快啊答题”背后的产业链

最近，市面上最大打码平台“快啊答题”被警方一窝端掉，“快啊答题”打码平台所涉及的从撞库到晒密再到打码的整个黑色产业链被网络安全专家一一解析：

▲“撞库→晒密→打码”产业链示例图

早期的打码平台，对验证码的识别基本是通过“人工+ OCR 降维识别图片”完成。但是，互联网公司的验证码安全策略升级后，包括出现像 12306 这样识别难度高的验证码体系，“人工+OCR”方式的识别效率降低、成本升高，一段时期内，确实降低了黑产犯罪。

但是，黑产人员并不会因为一条路被堵死，就放弃犯罪，他们又想出了更前沿的手法来应对。

目前市面上最大的“快啊答题”打码平台就是典型代表，他们运用目前最流行的人工智能 AI 技术训练机器，大大提高了识别验证码的精准度，也极大提升了犯罪嫌疑人在单位时间内识别验证码的数量。

通过“快啊答题”打码平台管理后台的统计信息显示，其2017年一季度破解验证码259亿次，总累计破解验证码1200 亿次。这套 AI 系统识别验证码成功率非常高，以下图红框标识处为例，当天的整体识别率会输出成日志文件，通过随机调取某日的日志文件，该日整体验证码识别率高达 83.4%。

“快啊答题”打码平台基于主流 AI 深度学习 Caffe 框架，使用 vgg16 卷积核神经网络模型，可以直接输入原始图像（避免了对图像的复杂前期预处理），并能通过深度的机器学习来获得较高的验证码识别率。

▲分布式 AI 验证码识别系统简易流程介绍

由于不同方式生成的验证码风格迥异，且经常变换，为了实现精准识别，提高准确度，“快啊答题”收集了大量不同风格的样本，并开发了验证码接收与分发模块，输入端对接打码平台，输出端根据验证码类型轮询选择并推送到相应的验证码识别模型，验证码识别完成，返回验证码字符串到打码平台，打码平台确认是否识别正确，并将结果反馈至该分布式AI验证码识别系统进行进一步优化。

▲图为识别平台自身的管理界面

1、生成方法

打码平台犯罪团伙通过以下步骤，迅速低成本地获得海量验证码训练数据：

（1）从互联网公开渠道获取字体样本，输出数字、字母、字母+数字、中文等不同类型验证码识别模型，获得的公开字体库，并且搜集背景图片，如壁纸/风景类图片。

（2）通过工具将不同字体的验证码进行加工处理（加干扰、变形等）后，写入到背景图片中，生成带标定的训练样本。

由于目标问题是不定长度的字符序列识别，生成的训练样本的字符个数也是不定长度的，可以是1-6个任意字符，最多支持6个标签的识别。黑产人员用一系列的验证码生成工具，来生成不同风格的验证码图片，如下图：

▲作者通过工具生成的训练样本示例

（编辑：ASP站长网）