到底什么是hash? - 知乎 - nick

正好最近在学习加密相关的知识,可以从小白的角度试着答一下,希望能帮到题主。

相信大部分的同学在首次学习hash的时候,是从数据结构中的查找表开始的,即利用<value,key>键值对来构造高效的存储结构,但这真只是hash的一个应用场景而已,除此之外,比如说还有签名之类的用途(后文会说到)

-----------------------------------------------------------------正文-----------------------------------------------------------

定义:和其他答主说的一样,hash就是一个function,但不要太狭隘,函数的输入不一定得是数字,它还可以是其它所有的二进制数据(字符串、文件等),但必须得有以下特点:

1、同一个输入一定对应着同一个输出;

2、不同输入的输出可能会一样;

(是不是很像小学课本?)

下面通过两个常见的使用场景解释可能比较容易理解;

应用场景一:构建查找表

比如在数据结构中的hash表,输入是key,简单的function如key/N,输出是数组下标,但因为第二个特点,不同key可能会得到相同的输出,所以在各类语言中的hashmap库实现时,会针对的做相应处理,比如从冲突的地方继续做hash运算,直到不冲突为止等;

应用场景二:数字签名

本质还是一样,利用hash 的function对输入做运算,这些运算不局限于上述应用的数字运算,还可以有各类位运算等,所以输入也就不再局限于数字了,而是只要是二进制数据就行,比如字符串、文件等。虽然输入、function、输出形式不一样,上述的两个特点还是成立的。除此之外,为了保证签名的要求,hash function的设置者会针对性的研究function的实现方法,以获得第三个特点:

3、已知输出,不可反推得到输入;

为了便于解释,还是用数字的hash function来解释。比如y = x ^ 2,知道y = 1,x可能有2个解,再比如hash function 为y = (x ^ 2 - 10) ^ 2,知道y = 1,x可能由4个解,但hash function本身足够复杂、而输入也足够复杂的时候,已知y,实际求出x不具备可行性。签名一般数据的流程如下:

(数据对应x,摘要对应y)

在接受方对比的时候,便利用到了hash的第1个特点,而为了防止暴力破解,则利用了第3个特点,至于防破解以及第2个特点带来的摘要重复的问题,则是hash函数设计者需要考虑的问题了,详细可参考楼上答主的讲解或Google一下。

总结:

hash所有的应用必然是利用函数的以上几个特点来设计的。

针对楼主问题的回答:

字符串和1TB的文件如何hash?也就是问对应着字符串和1TB文件的输入,怎么得到输出?那肯定是根据hash function而定的啦,不同的hash function,输出不一样,但这些function,肯定是支持二进制的数据输入的,比如sha256、sha512等等,具体的实现方法,有兴趣可以网上搜一下。

PS:如果有啥理解不对的地方,请大家及时指出啦


Original url: Access
Created at: 2019-04-12 18:42:29
Category: default
Tags: none

请先后发表评论
  • 最新评论
  • 总共0条评论