西电科大一研究团队试验新型图像验证码
新验证码易辨别 电脑程序难破解
眼下,正是学子们提前购买寒假回家的火车票时,而铁路网上购票平台12306网上的购票验证码也吸引了很多学子的关注。近日,西安电子科技大学专门研究网络与信息安全、身份认证的高海昌教授提出一种简单通用的新的文本验证码自动识别方法,一举破解当前所有使用基于字母和数字识别作为验证码的网站。昨日,记者专访高海昌教授,了解有关验证码的那些事儿。
用简单方法 可破解文本验证码
高海昌教授介绍说,平时所说的验证码,是“全自动区分计算机和人类的图灵测试”的俗称,常见的验证码主要包括文本验证码、语音验证码、图形验证码, “因使用简便,基于字母和数字的文本验证码是当前使用最广泛的验证码,其安全性依赖于字母和数字的扭曲变形、相互粘连重叠以及背景加噪点和干扰线等干扰效果。”高海昌告诉记者说,文本验证码最为常见,因而若存在漏洞,后果也最严重。
“我们用一种简单方法,在世界上首次实现所有现存主要文字验证码的破解。可以说,从此以后文本验证码的研究可以画个句号了。”高海昌教授解释,破解思路就是“拆散”再“组合”,随意选择一组文字验证码,使用方向滤波器,经0°、45°、90°、135°四个方向滤波后,原验证码被分解成为只有这四个方向线条的四张图片。经过这一步,原先粘连在一起的字符便被拆散。随后,再把这些线条重新组合在一起。最后,运用动态规划算法将可能的所有结果都组合出来,与样本库中的字符对比,找到最佳组合,也就是要输入的结果。
据了解,用这种方法,无论文本验证码如何扭曲、倾斜、重叠、空心、粘连或加入噪声,即便是使用普通PC,也可以在数秒内迅速破解。经检测,世界排名前二十的网址的文本验证码均可通过此方法识别,识别率最高可达77%,准确率超过现有所有进行文本验证码研究的团队。
研究新型验证码 给电脑程序出难题
“对验证码的研究,其实就是对其鲁棒性和可用性的研究。”高海昌解释说,鲁棒性就是要求验证码机制防破解能力强,不会轻易被计算机程序自动识别;可用性就是要求验证码机制对于人类的使用交互友好,既不能识别困难,也不能让识别时间过长。“验证码研究向前推动,难点就在于不断寻找这两者间的最佳平衡点。”
“最近频遭质疑的12306网站的图片验证码,人类的通过率只有8%。相反,机器通过却易如反掌。12306后台目前有581种生活中常见物体图片的验证码,包括动植昆虫、食品果蔬等12大类。数量虽不多,但考虑到图片大小、清晰度等问题,要想在短时间内予以识别,确实困难。”高海昌介绍说,对于计算机来说,581种图片的学习量再小不过,不到一秒便可轻松通过验证码程序,其可用性和安全性都差强人意。
据介绍,高海昌团队正致力于研究一种十分巧妙的新型图片验证码,将改变目前图片验证码的缺陷。“现有计算机无法破解,方法也很简单。”高海昌介绍说,“在背景图片上自动生成几个线条不连续不均匀、形状不规则的几何图形,图形之间相互交叠,背景中再加入一些短线条作为噪点,就构成我们正在提出的新型图形验证码。”高海昌指出,这种图形验证码的优点是人类很容易分辨,计算机却难以区分识别这些不规则几何图形的边界。
据悉,经试验,目前尚没有计算机程序能有效破解高海昌团队所提出的新验证码。在文本验证码被证明不再安全、失去深入研究意义时,这种巧妙的验证码为今后相关领域的研究提供了一个深入探索的方向。
“运用指纹、虹膜等生物特征作为验证码也将成为未来研究方向,坚持下去,验证码的发展或许会有翻天覆地的变化。”高海昌说。(记者 任娜 通讯员 付一枫)
验证码的作用
验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止恶意破解密码、刷票、论坛灌水以及黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试,用验证码是现在很多网站通行的方式,可以由计算机生成并评判,但是理论上应当只有人类才能解答。
来源:《西安晚报》2015年12月23日A05版