彩虹表的攻击与防御
彩虹表的攻击与防御
预备知识
Hash:一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。后文所说的MD5算法是常用哈希算法之一,类似的还有MD5算法,SHA-1算法。
RainbowCrack:生成彩虹表的工具,是Philippe Oechslin 更快的时间记忆权衡技术的一般简易实现。能够实现:
1.全时间内存权衡工具套件,包括彩虹表生成,排序,转换和查找
2.支持任何哈希算法的彩虹表
3.支持任何字符集的彩虹表
4.支持原始文件格式(.rt)和压缩文件格式(.rtc)的彩虹表
5.计算多核处理器支持
6.使用NVIDIA GPU进行GPU加速(CUDA技术)
7.采用AMD GPU的GPU加速(OpenCL技术)
8.具有多个GPU的GPU加速
9.以及相应的系统兼容
MD5消息摘要算法(MD5 Message-Digest Algorithm):一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由美国密码学家罗纳德·李维斯特(RonaldLinn Rivest)设计,于1992年公开,用以取代MD4算法。
1)理解哈希算法的概念。
2)理解彩虹表攻击的原理以及进行相应实战。
3)掌握针对彩虹表攻击的防御要点。
步骤一
在信息化时代,手机已经成为了我们生活中不可缺少的一部分,而我们的手机锁屏密码大部分都是4位数字的组合,在存在着防御暴力破解机制的前提下(例如多次尝试失败进行锁定),我们可以用怎样的加密机制来防止不怀好意的人破解我们的手机密码呢?同样,身为Cracker的你,怎样在别人无法察觉的情况下破解手机密码呢?
我们的任务分为3个部分:
1.以防御者的视角,编写对于4位密码进行md5加密的脚本,来抵御攻击者对密码的嗅探。
2.以攻击者的视角,通过生成相应的彩虹表来对4位数字密码MD5密文进行破解。
3.以防御者的视角,通过某种措施来抵御彩虹表破解或者使攻击者的破解难度和成本大大增加。
任务描述:使用任意一种语言,对特定的四位数字进行MD5加密(例如‘3839’),输出加密后的结果:
注:具体MD5加密原理可以参照实验《Hash算法MD5分析》(http://www.hetianlab.com/expc.do?ec=81da3ca2-ae9d-4e85-b2a2-b6f217a150a0),在这里就不复现MD5的加密流程了
步骤二
任务描述:使用给定的彩虹表生成工具RainbowCrack,生成破解四位数字组合MD5值的彩虹表,并对实验一中的MD5字符串进行破解。
1.彩虹表原理(对原理不感兴趣的同学可以直接跳到后面的操作阶段):
1)时间和空间的折中(本节摘自CSND)
彩虹表预先建立一个可逆向的散列链并将其存储在表中,在破解时先查表得到可能包含结果的散列链,然后在内存中重新计算并得到最终结果。折中方式综合了计算暴力破解和查找表破解的优点,并将计算时间和存储空间降低到可以接受的范围。
以下图散列链为例,其中散列函数H将字符串转换成散列值,衰减函数R将散列值转换成字符串:
因此只需要存储第一个字符串aaaaaa和最后一个字符串kiebgt,我们就可以通过有限的计算还原整个散列链中所有的明文密码和散列值。这样可以减少所需要的存储空间。当我们获得一个用户密码的散列值,通过R运算可以得到一个字符串,然后通过查表的方式可以得到对应的散列链,从而还原用户明文密码。
例如,我们有密码散列值920ECF10,通过R函数可以得到字符串kiebgt,查表后我们得到散列链aaaaaa-kiebgt,然后在内存中还原整个散列链,因为我们只做了一次R运算,因此只需要找到kiebgt上一次使用R-H函数前的字符串就能得到用户的明文密码。
2)预先计算的散列链(本节摘自维基百科)
假设我们有一个哈希方程H和一个有限的密码集合P。我们需要预先计算出一个数据结构来帮我们决定哈希方程H的任意一个输出结果h是否可以通过密码集合P里面的一个元素p经哈希函数H(p) = h得到。实现这一目的的最简单的方法是计算出P集合内所有密码p的哈希值H(p)。但是这个方法要求Θ(|P|n),(n代表哈希函数H的一个输出值的大小,对于较大的|P|,n会变得过高)字节的空间来储存结果。
哈希链可以用来减少对于储存空间的需求。大致想法是通过定义一个衰减函数(reduction function)R来影射散列值h在集合P中对应的密码p。(注意,这里的衰减函数并不是真正意义上哈希函数的反函数。)然后通过用衰减函数来替代哈希函数,形成交替的密码和哈希值。例如,如果P是6个字符的密码集合,而哈希值有32位长,那么他们形成的长链如下:
一个衰减函数的例子:
已知一个32位的哈希值 -〉 获得哈希值的最后4个字符。
对于衰减函数的唯一要求是,它需要能返回特定字符的纯文本值。
为了生成查找表,我们从初始密码集合P中随机选择一个子集,对子集中的每个元素计算长度为k的哈希链,然后只保存每条哈希链的初始和末尾密码。我们把初始密码称为起点,把末尾密码称为终点。在上述哈希链的例子中,”aaaaaa”和”kiebgt”即为起点和终点,而哈希链中的其他密码或者哈希值均不会被保存。
现在,对于给定的哈希值h我们来计算它的逆(即找到对应的密码),从哈希值h开始,我们通过依次施加函数R和H生成一个哈希链。如果哈希链的任何节点与查找表的某个终点发生了碰撞,我们就可以找到与之对应的起点,然后用它重建对应的哈希链。而这个哈希链很可能包含了h,如果这样的话,那么它的前驱节点即为我们要寻找的密码p。
例如,如果给定的哈希值为920ECF10,我们首先施加函数R:
因为”kiebgt”就是我们查找表的一个终点,所以我们找到对应的起始密码”aaaaaa”,然后搜索由它生成的哈希链直到找到920ECF10:
因此,目标密码即为”sgfnyd”。
注意,这里的哈希链并不总是会包含我们要寻找的哈希值h;很可能以h开始的链会和起点在h链之后的某个查找链重合。例如,我们可以从FB107E70的哈希链中找到kiebgt:
但FB107E70并不在以”aaaaaa”开头的链中。这种情况被称为误报。在这个例子中,我们可以忽略这个匹配然后继续扩增h链同时寻找下一个匹配。如果h的哈希链在扩增到长度为k后仍然没有发生匹配,那么与之对应的密码一定不在查找表的任何哈希链中。
查找表的内容并不依赖于查询的哈希值。它是在一次性建立之后,被无修改的重复用于查找。增加链的长度可以减小表的规模,但同时也会增加查询时间,这就是彩虹表空间换时间的折中策略。在单元链的最简单情况下,查询速度会非常快,但表也会非常大。一旦链变得更长,查找速度也会降下来,但表的规模变得更小了。
简单的哈希链方法有很多缺陷。最严重的问题是,如果两条链中的任何两个点碰撞(有同样的值)了,他们后续的所有点都将重合,这将导致在付出了同样的计算代价之后并不能使表尽可能多的覆盖到密码。由于链的前部并没有整个的保存,这使得碰撞不可能有效检测到。例如,如果链3的第三个值和链7的第二个值重合了,那么这两条链将覆盖几乎同样的值,但他们的终点值却不相同。哈希函数H本身不大可能产生碰撞,因为这就是它最重要的安全特性之一。但对于衰减函数R来说,由于他需要正确的覆盖掉可能的明文(即之前讨论的密码),所以不会是抗碰撞的。
其他的困难是由选择正确R函数的重要性导致的。选择恒等映射作为函数R要比暴力搜索好一点。只有当攻击者明确知道明文的可能取值是什么时,他/她才需要选择一个好的R函数使得时间和空间花费在这些可能的明文上,而不是整个可能的密文空间。尽管把R的取值限定到可能的明文空间能带来好处,但它的弊端是攻击者选择的用于生成哈希链的明文子集可能并不能覆盖所有的可能明文空间。设计一个能匹配明文期望分布的R函数也非常困难。
3)RainbowCrack目录文件说明:
文件 作用
rtgen.exe 生成彩虹表的执行文件
rtsort.exe 给彩虹表排序文件
rcrack.exe 执行解密的文件
rt2rtc.exe 将后缀是rt的文件转化为rtc文件
rtc2rt.exe 将后缀是rt的文件转化为rt文件
charset.txt 这个文件是我们的字符集对照表文件(解密的类型)
group.txt -这是组文件.将几个彩虹表组合起来
4)RainbowCrack参数注解:
命令行下生成彩虹表格式:
rtgen hash_algorithm charset plaintext_len_min plaintext_len_max table_index chain_len chain_num part_index
表格生成参数隐式确定了许多彩虹表格特征:
2.操作步骤
1)生成彩虹表:
使用命令:rtgen md5 numeric 4 4 0 3000 400000 0
//显示了生成后的文件名
//显示了生成相应彩虹表所用时间
2)对彩虹表进行排序:
彩虹表是一串彩虹链。每条彩虹链都有一个起点和一个终点。rtsort程序通过终点对彩虹链进行排序,使二进制搜索成为可能。
运行以下命令对当前目录中的所有.rt彩虹表进行排序:
rtsort .
切勿中断rtsort程序; 否则被分类的彩虹表可能会被损坏。
如果可用内存大小小于正在排序的彩虹表的大小,则需要与彩虹表大小一样大的临时硬盘空间来存储中间结果。
我们生成的这表太小,所以瞬间就完成了排序.
3)对我们实验一中的md5密文进行彩虹表破解:
附命令示例,破解单个哈希:(.为彩虹表在当前目录的写法,不在当前目录直接写路径)
rcrack . -h fcea920f7412b5da7be0cf42b8c93759
rcrack_cuda . -h fcea920f7412b5da7be0cf42b8c93759
rcrack_cl . -h fcea920f7412b5da7be0cf42b8c93759
破解多个哈希:
rcrack . -l hash_list_file
rcrack_cuda . -l hash_list_file
rcrack_cl . -l hash_list_file
对于单个的哈希值,我们可以直接用rcrack.exe . -h hashnum来进行破解:
以’3839’为例:
MD5(3839) = 9b2f00f37307f2c2f372acafe55843f3
//彩虹表破解成功
//类似的,还可以通过同样的思路破解SHA1等哈希算法
(彩虹表攻击是高效的,但是存储彩虹表所要花费的代价也是高昂的,以MD5哈希算法为例,我们仅仅4位数字组合的彩虹表便用去了6M左右的空间,而10位小写字母与数字的组合便需要花费316GB的内存空间。但无论怎样,彩虹表在空间上的花销是一定要优于字典对的)
实验步骤三
任务描述:针对彩虹表的攻击原理,思考对这种攻击的防御手段:
示例:通常,我们对彩虹表攻击的防御措施有两种:
①“加盐”:彩虹表只能通过有限密码集合生成查找表——当密码集合扩大,彩虹表占用的空间将以指数速度增加。因此目前最常用的方式是将用户密码添加一段字符串(盐化)后再做散列。
saltedhash(password) =hash(password+salt)
如果将用户密码后添加一段随机字符串,然后将随机字符串和散列后的哈希值存储在密码数据库中。彩虹表将不得不计算出盐化后的密码,而盐化后的密码会大大增加散列前的长度,从而使密码集合过大而变得不可能生成彩虹表。
示例:我们直接在之前‘3839’的md5值后面增加’aaaa’的盐值,试试能不能通过彩虹表破解。
②已知彩虹表是应用于主流的哈希算法的,那么通过对哈希算法进行修改,自然能够防御彩虹表破解。
但这样存在某些隐患,例如,黑客可以将产品的算法通过逆向工程提取出来,通过算法生成特定的彩虹表。如果私有加密算法强度不够或是有设计缺陷的,届时密码破解将比使用彩虹表更加容易。
通过这次实验我理解了哈希算法的概念和彩虹表攻击的原理以及进行相应实战并且掌握了针对彩虹表攻击的防御要点。