MD5,Message Digest Algorithm 5,是一种被广泛使用的信息摘要算法,可以将给定的任意长度数据通过一定的算法计算得出一个 128 位固定长度的散列值。如百科介绍,MD5 具有如下特点:
- 压缩性:任意长度的原数据,其 MD5 值都是固定的,即 128 位;
- 易计算:计算原数据的 MD5 值是一个比较容易的过程;
- 抗修改:原数据的任意改动,所得到的 MD5 值都是迥然不同的;
- 防碰撞:这一点要特别介绍一下。MD5 使用的是散列函数(也称哈希函数),一定概率上也存在哈希冲突(也称哈希碰撞),即多个不同的原数据对应一个相同的 MD5 值。不过,经过 MD4、MD3 等几代算法的优化,MD5 已经充分利用散列的分散性高度避免碰撞的发生。
可以看出,MD5 是一种不可逆的算法,也就说,你无法通过得到的 MD5 值逆向算出原数据内容。正是凭借这些特点,MD5 被广泛使用。
比如,客户端与服务器的 HTTP 通信,通信双方可以将报文内容做一个 MD5 计算,并将计算所得 MD5 值一并传递给彼此,这样,接收方可以通过对报文内容再次做 MD5 计算得到一个 MD5 值,与传递报文中的 MD5 值做比较,验证数据是否完整,或者是否中途被拦截篡改过。
再比如,网络云盘中的文件秒传功能也运用到 MD5 算法。服务器存储文件的时候,同时记录每一个文件的 MD5 值,不同文件对应着不同的 MD5 值。这样,遇到用户上传文件时,将上传文件的 MD5 值与服务器上所有存储的 MD5 值做比较,如果相同,则说明用户上传的文件已经在服务器存有。这样,只需要在数据库表中添加一个记录,映射到对应的文件,而不用重复上传,实现所谓秒传的功能。
当然,这只是常见的两个例子,MD5 的用途大有所在。值得注意的是,严格意义上来讲,MD5 以及 SHA1 并不属于加密算法,也不属于签名算法,而是一种摘要算法,用于数据完整性校验等。
了解完基本的 MD5 概念,再来看看 Java 语言中计算 MD5 值的实现方式。
第一步,获取 MessageDigest 对象,参数为 MD5 字符串,表示这是一个 MD5 算法(其他还有 SHA1 算法等):
|
|
第二步,输入原数据,参数类型为 byte[] :
|
|
注意:update() 方法有点类似 StringBuilder 对象的 append() 方法,采用的是追加模式,属于一个累计更改的过程,比如:
|
|
与
|
|
是等效的,计算结果相同。
第三步,计算 MD5 值:
|
|
注意:digest() 方法被调用后,MessageDigest 对象就被重置,也就是说你不能紧接着再次调用该方法计算原数据的 MD5 值。当然,你可以手动调用 reset() 方法重置输入源。
digest() 方法返回值是一个字节数组类型的 16 位长度的哈希值,通常,我们会转化为十六进制的 32 位长度的字符串来使用,可以利用 BigInteger 类来做这个转化:
|
|
当然,还有很多其它方式也能实现字节数组到十六进制的转换,比如通过位运算:
|
|
通过这层转换,得到的 MD5 值便是一个长度为 32 位的十六进制字符串,方便使用,类似这样:
301d61853fc9ce94bbfb55b56c218d06
有了以上这些基础知识,再来看看如何将文件转化为一个 MD5 字符串:
|
|
注意:文件的大小直接影响字节流的读取速度,间接影响这里 MD5 的计算时长。Java 语言提供有多种方式读取文件,除了上面用到的 FileInputStream 这种顺序读取的 API 类,还有采用随机读取方式的 RandomAccessFile 类等。关于各种读取方式的效率,推荐大家阅读这篇文章:
Java tip: How to read files quickly