■记者 付一枫
模糊纠缠,难辨难认,许多人都有与此类验证码斗争却败下阵来的经历。小小不便的背后,若这些验证码被电脑程序攻破,电脑轻松通过任何一个网站的注册程序,我们的邮箱将可能被垃圾邮件充斥,木马和爬虫程序盗取用户信息也将更加容易,同时,网站、论坛留言板或许将被垃圾留言及数以千万记的广告轰炸。我们可能再难赶在贩票的“黄牛”前买到一张回家的火车票。
“安全无小事,验证码就是要站好网络安全的第一班岗。在信息安全领域,人为盗取的信息只占很少部分,绝大多数是因为木马、爬虫等计算机程序自动盗取信息。”面对日新月异的验证码破解手段,西安电子科技大学软件学院高海昌副教授一直默默地从事着提升验证码安全性和可用性的工作。
近日,高海昌提出一种简单通用的新的文本验证码自动识别方法,一举破解当前所有使用基于字母和数字识别作为验证码的网站。至此,包括全球流量排名前20的所有网站(Google、Facebook、Youtube、Twitter、Yahoo、Baidu、QQ、Amazon、Taobao、Sina、eBay等)所使用的验证码被首次全面破解。团队共同撰写的论文《A Simple Generic Attack on Text Captchas》被信息系统安全顶级国际会议NDSS’2016正式全文接收。
高海昌:白帽黑客
“我们平时所说的验证码,是‘全自动区分计算机和人类的图灵测试’的俗称。”高海昌解释说,“验证码可区分操作行为的是人还是计算机,目的是保护互联网资源不被滥用。常见的验证码主要包括文本验证码、语音验证码、图形验证码。”
为了加强对网络信息的保护,有效遏止计算机程序恶意窃取信息,大多数网站都使用了网页验证码强制进行人机交互来验证当前用户是否为合法用户。验证码可有效防止电脑程序自动注册、登录及在留言板界面发布广告等垃圾信息,还可以防止黑客通过暴力破解方式不断地进行尝试登陆,以对某特定用户密码信息进行破解及盗取相关信息。
“验证码测试问题由计算机自动生成,经人类解答并输入答案,最终由计算机进行评判。这些测试绝大多数可以被人类完成而机器不能或很难通过。因使用简便,基于字母和数字的文本验证码是当前使用最广泛的验证码,其安全性依赖于字母和数字的扭曲变形、相互粘连重叠以及背景加噪点和干扰线等干扰效果。”高海昌介绍说。
文本验证码最为常见,因而若存在漏洞,后果也最严重。“我们用一种简单方法,全世界首次实现所有现存主要文字验证码的破解。可以说,从此以后,文本验证码的研究可以画个句号了。”高海昌说。
“总得来说,我们的破解思路就是‘拆散’再‘组合’。”随意选择一组文字验证码,使用方向滤波器,经0、45、90、135度四个方向滤波后,原验证码被分解成为只有这四个方向线条的四张图片。经过这一步,原先粘连在一起的字符便被拆散。随后,再把这些线条重新组合在一起。最后,运用动态规划算法将可能的所有结果都组合出来,运用K近邻算法,与样本库中的字符对比,找到最佳组合,也就是要输入的结果。”
Microsoft、QQ和Baidu三个例子在4个角度上的方向滤波和组合
“这是首次将方向滤波器运用到验证码的识别中。方法很简单,但效果也惊人地好。”用这种方法,无论文本验证码如何扭曲、倾斜、重叠、空心、粘连或加入噪音,即便是使用普通PC,也可以在数秒内迅速破解。经检测,世界排名前二十的网址的文本验证码均可通过此方法识别,识别率最高可达77%,准确率超过现有所有进行文本验证码研究的团队。在业界,当识别率达到0.01%便算破解成功。
Baidu的14个笔画块进行动态规划求最优解
“除了K近邻算法,也可以使用深度学习中的卷积神经网络算法来进行识别。随着字符样本库越来越大,计算机深度学习的程度越深,计算机对文本验证码的识别率会不断提高,时间也将不断缩短。我们还对某些较少被研究的复杂验证码进行了测试,一些人类都难以识别的验证码,用此种方法也可得以破解。”
此研究成果被信息系统安全顶级国际会议NDSS’2016正式全文接收。据了解,NDSS是信息系统安全领域国际公认的四大顶级会议之一(ACM CCS、IEEE Security & Privacy、USENIX Security和ISOC NDSS),创办于1994年。西电是继北大清华之后,第三家在这个会议上发表论文的大陆科研机构。
黑客(Hacker)一词,最初曾指热心于计算机技术、水平高超的电脑专家,尤其是程序设计人员,后来逐渐区分为白帽、灰帽、黑帽等。利用公共通讯网路,如互联网和电话系统,在未经许可的情况下,攻入对方系统的被称为黑帽黑客(black hat);调试和分析计算机安全系统的称为白帽黑客(white hat)。
“破解验证码的目的,不是为了破坏,而是找出现有验证码的缺陷,寻求解决方法,推动验证码研究不断发展。”高海昌称自己属于白帽黑客。
验证码:网络安全的第一关
验证码的存在,就是需要由用户肉眼识别其中的验证码信息,防止一些人利用程序自动注册、登录、灌水等等。“对验证码的研究,其实就是对其鲁棒性和可用性的研究。”高海昌说。
在验证码的领域中,鲁棒性就是要求验证码机制防破解能力强,不会轻易被计算机程序自动识别。可用性就是要求验证码机制对于人类的使用交互友好,既不能识别困难,也不能让识别时间过长。“验证码研究向前推动,难点就在于不断寻找这两者间的最佳平衡点——毕竟可用性高,就要求验证码简单,安全性便可能因此降低;而鲁棒性强,安全性大大提升,使用的方便度便不那么高。”
“最近频遭质疑的12306网站的图片验证码,人类的通过率只有8%。相反,机器通过却易如反掌。12306后台目前有581种生活中常见物体图片的验证码,包括动植昆虫、食品果蔬等12大类。数量虽不多,但考虑到图片大小、清晰度等问题,要想在短时间内予以识别,确实困难。”高海昌介绍说。对于计算机来说,581种图片的学习量再小不过——破解程序经多次尝试,建立图片答案库,不到一秒便可轻松通过验证码程序,验证码的可用性和安全性都差强人意。高海昌团队也曾就火车票售卖网站验证码问题向有关部门提出了自己的建议。
“验证码的进步就是一个‘研究、破解、提升、再破解、再弥补’的过程,国际、国内的许多公司常向我们寻求建议。”2013年,各大网站纷纷推出空心验证码,它打破了传统的实心字体的模式,用轮廓线的空心字体替代。这样当多个字符重叠粘连的时候,机器识别度较差,但是人类仍然可以很好的识别。但高海昌发现,只需先将空心填充成实心字符,使用颜色填充算法得到离散的笔画块。然后使用卷积神经网络和深度优先算法对笔画块进行组合识别,寻求最优解作为识别结果,此类验证码也可就此被破解。
“我们针对Yahoo、百度、新浪、腾讯、和中国移动在线支付网站的空心验证码分别取得了36%、51%、59%、89%和66%的成功率。”此成果的研究文章“The robustness of hollow CAPTCHAs”被密码学和信息安全领域享有崇高声誉、公认的顶级国际学术会议之一的ACM CCS 2013正式录用,这也是中国大陆研究机构首次有论文在这个高档次会议上发表。
“Yahoo和腾讯等公司的空心验证码被攻破后,也主动联系我们,希望我们能对其验证码改进提供帮助。如今,腾讯公司每当推出新型验证码后,总会首先让我的团队试一试能否破解。”高海昌说,“验证码可以防止滥用网络资源,与普通人生活息息相关,是网络安全的第一关。”
未来方向:“破”与“立”中守护互联网安全
当文本验证码被证明不再安全,寻找使用简便、安全性又高的新验证码,便成了高海昌目前工作的重点。
“‘破’是为了更好地‘立’。想要设计新型的验证码,就需综合考虑当前图像处理和人机交互领域的最新进展和成果,尽力挖掘出人类擅长处理而计算机AI算法不擅长的。”高海昌说,“这个过程中,最难的便是如何保证验证码不易被破解,同时还实现用户友好。”
近日,高海昌正致力于研究一种十分巧妙的新型图片验证码。“现有计算机无法破解,方法也很简单。”高海昌介绍说,“在背景图片上自动生成几个线条不连续不均匀、形状不规则的几何图形,图形之间相互交叠,背景中再加入一些短线条作为噪点,就构成我们正在提出的新型图形验证码。人类很容易分辨,计算机却难以区分识别这些不规则几何图形的边界。”经试验,尚没有计算机程序能有效破解高海昌团队所提出的新验证码。人类数起来很简单,又能有效阻挡恶意程序,在文本验证码被证明不再安全、深入研究失去意义时,这种巧妙的验证码或许为今后相关领域的研究提供了一个值得深入探索的方向。
“缺点也并非没有。因同一个图片中圈的数量不能太多,否则人类也可能难以数清;数量很少的情况下,计算机存在通过多次猜测猜中验证码的可能。针对这种情况,我们将图片的数量增加到5张,平均每张1到10个圈。如此,只需短短几秒人类便可轻松通过验证码,同时安全性也大大提高。”目前,此验证码的研究文章已投给相关杂志。
尽管文字验证码已被证明不安全,但因其使用的便捷性,以及新型验证码机制的不成熟(如典型的12306图像验证码),尚不可能完全被取代。“图形验证码比文本验证码先进,这也是技术发展的趋势。谷歌就推出了将任意图片切成圆形生成验证码,然后将图片旋转,用户在使用时只需将角度转正即可。这种验证码机器识别难度同样很大。某些网站也推出了手机短信验证等新型验证码,这是文本或图片验证码很好的替代方式,但对服务器要求颇高。”高海昌说。
“验证码的研究是小步前进的,每次进步都是已有成果上的小幅推进,想要提出一种全新的验证码,达到鲁棒性和可用性的最佳平衡,目前来说难度还很大。”高海昌说,“但安全无小事,技术上不能开倒车,在未来,运用指纹、虹膜等生物特征作为验证码得到普及也有可能实现的一天。坚持下去,验证码的发展或许会有翻天覆地的变化。”
在这场“破”与“立”的拉锯战中,高海昌乐在其中。
相关报道:
《中国科学报》验证码能保护网络安全吗?
《中国科学报》验证码:互联网安全的第一道护卫
《西安日报》12306图形验证码遭吐槽 专家:为防止黄牛票泛滥
《华商报》图形验证安全性高可用性差
《国际金融报》验证码:识别难度如何确定