什么是MD5,什么是SHA-1,让我们先来了解一些基本知识,了解hash。
Hash,一般翻译做“散列”,也有直接音译为”哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。
简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
HASH主要用于信息安全领域中加密算法,他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值.也可以说,hash就是找到一种数据内容和数据存放地址之间的映射关系。
小结:
1、你可以把哈希值简单地理解成是一段数据(或某个文件,或者是字符串)的DNA,或者身份证;
2、通过一定的哈希算法(典型的有MD5,SHA-1等),将一段较长的数据映射为较短小的数据,这段小数据就是大数据的哈希值。他有这样一个特点,他是唯一的,一旦大数据发生了变化,哪怕是一个微小的变化,他的哈希值也会发生变化。另外一方面,既然是DNA,那就保证了没有两个数据的哈希值是完全相同的。
3、正是因为这样的特点,它常常用来判断两个文件是否相同。比如,从网络上下载某个文件,只要把这个文件原来的哈希值同下载后得到的文件的哈希值进行对比,如果相同,则表示两个文件完全一致,下载过程没有损坏文件。而如果不一致,则表明下载得到的文件跟原来的文件不同,文件在下载过程中受到了损坏。
了解了hash基本定义,就不能不提到一些著名的hash算法,MD5和SHA1可以说是目前应用最广泛的Hash算法,而它们都是以MD4为基础设计的。那么他们都是什么意思呢?
这里简单说一下:
1)MD4
MD4(RFC1320)是MIT的RonaldL.Rivest在1990年设计的,MD是MessageDigest的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于32位操作数的位操作来实现的。
2)MD5
MD5(RFC1321)是Rivest于1991年对MD4的改进版本。它对输入仍以512位分组,其输出是4个32位字的级联,与MD4相同。MD5比MD4来得复杂,并且速度较之要慢一点,但更安全,在抗分析和抗差分方面表现更好。
MD5是一种不可逆的加密算法,目前是最牢靠的加密算法之一,尚没有能够逆运算的程序被开发出来,它对应任何字符串都可以加密成一段唯一的固定长度的代码。
那么它有什么用呢?很简单,通过它可以判断原始值是否正确(是否被更改过)。一般用于密码的加密。而我们所提供的MD5校验码就是针对安装程序的唯一对应的一段代码。你可以使用任何MD5运算器对下载的文件进行运算,运算出来的结果如果完全符合我们提供的MD5校验码,那么说明你下载的这个程序没有被中途修改过。
这个特征码有如下特性,首先它不可逆,例如我有一段秘密的文字如:”MySecretWords”,经算法变换后得到MD5码(b9944e9367d2e40dd1f0c4040d4daaf7),把这个码告诉其他人,他们根据这个MD5码是没有系统的方法可以知道你原来的文字是什么的。
其次,这个码具有高度的离散性,也就是说,原信息的一点点变化就会导致MD5的巨大变化,例如”ABC”MD5(902fbdd2b1df0c4f70b4a5d23525e932)和”ABC”(多了一空格)MD5(12c774468f981a9487c30773d8093561)差别非常大,而且之间没有任何关系,也就是说产生的MD5码是不可预测的。
最后由于这个码有128位那么长,所以任意信息之间具有相同MD5码的可能性非常之低,通常被认为是不可能的。
所以一般认为MD5码可以唯一地代表原信息的特征,通常用于密码的加密存储,数字签名,文件完整性验证等。
3)SHA1及其他
SHA1是由NISTNSA设计为同DSA一起使用的,它对长度小于264的输入,产生长度为160bit的散列值,因此抗穷举(brute-force)性更好。SHA-1设计时基于和MD4相同原理,并且模仿了该算法。SHA-1是由美国标准技术局(NIST)颁布的国家标准,是一种应用最为广泛的hash函数算法,也是目前最先进的加密技术,被政府部门和私营业主用来处理敏感的信息。而SHA-1基于MD5,MD5又基于MD4。
论坛里提供的系统镜像文件的hash也就是微软官方提供的SHA-1值,下载后和此值对应,就说明你下载过程中文件没有被更改,属于原版。
一直以为HMAC_SHA1和SHA1没有任何区别,直到现在才发现它俩不是完全一样的。
HMAC的百度百科解释:
“HMAC是密钥相关的哈希运算消息认证码(Hash-based Message Authentication Code),HMAC运算利用哈希算法,以一个密钥和一个消息为输入,生成一个消息摘要作为输出。”
可以看出,HMAC是需要一个密钥的。所以,HMAC_SHA1也是需要一个密钥的,而SHA1不需要。
以下是两种算法在java中的实现:
如下方法是使用sha1计算一个文件的摘要,不需要密钥,有点类似于md5,注意这句:
- MessageDigest.getInstance("SHA-1"); //传的是SHA-1
- public static String sha1Digest(String filename) {
- InputStream fis = null;
- byte[] buffer = new byte[Constants.BUFFER_SIZE];
- int numRead = 0;
- MessageDigest sha1;
- try {
- fis = new FileInputStream(filename);
- sha1 = MessageDigest.getInstance("SHA-1");
- while ((numRead = fis.read(buffer)) > 0) {
- sha1.update(buffer, 0, numRead);
- }
- return toHexString(sha1.digest());
- } catch (Exception e) {
- System.out.println("error");
- return null;
- } finally {
- try {
- if (fis != null) {
- fis.close();
- }
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- }
如下方法是使用hmacsha1计算字符串的签名,需要一个密钥,一般用来作服务器端的签名验证。
- Constants.APP_SECRET
注意这句:
- Mac.getInstance("HmacSHA1");//传的是HmacSHA1
- private static byte[] getHmacSHA1(String src)
- throws NoSuchAlgorithmException, UnsupportedEncodingException,
- InvalidKeyException {
- Mac mac = Mac.getInstance("HmacSHA1");
- SecretKeySpec secret = new SecretKeySpec(
- Constants.APP_SECRET.getBytes("UTF-8"), mac.getAlgorithm());
- mac.init(secret);
- return mac.doFinal(src.getBytes());
- }