下面,我就来尝试,写一篇最好懂的区块链教程。毕竟它也不是很难的东西,核心概念非常简单,几句话就能说清楚。我希望读完本文,你不仅可以理解区块链,还会明白什么是挖矿、为什么挖矿越来越难等问题。

需要说明的是,我并非这方面的专家。虽然很早就关注,但是仔细地了解区块链,还是从今年初开始。文中的错误和不准确的地方,欢迎大家指正。

一、区块链的本质

区块链是什么?一句话,它是一种特殊的分布式数据库。

首先,区块链的主要作用是储存信息。任何需要保存的信息,都可以写入区块链,也可以从里面读取,所以它是数据库。

其次,任何人都可以架设服务器,加入区块链网络,成为一个节点。区块链的世界里面,没有中心节点,每个节点都是平等的,都保存着整个数据库。你可以向任何一个节点,写入/读取数据,因为所有节点最后都会同步,保证区块链一致。

二、区块链的最大特点

分布式数据库并非新发明,市场上早有此类产品。但是,区块链有一个革命性特点。

区块链没有管理员,它是彻底无中心的。 其他的数据库都有管理员,但是区块链没有。如果有人想对区块链添加审核,也实现不了,因为它的设计目标就是防止出现居于中心地位的管理当局。

正是因为无法管理,区块链才能做到无法被控制。否则一旦大公司大集团控制了管理权,他们就会控制整个平台,其他使用者就都必须听命于他们了。

但是,没有了管理员,人人都可以往里面写入数据,怎么才能保证数据是可信的呢?被坏人改了怎么办?请接着往下读,这就是区块链奇妙的地方。

区块链由一个个区块(block)组成。区块很像数据库的记录,每次写入数据,就是创建一个区块。

每个区块包含两个部分。

  • 区块头(Head):记录当前区块的特征值
  • 区块体(Body):实际数据
  • 区块头包含了当前区块的多项特征值。

  • 实际数据(即区块体)的哈希
  • 上一个区块的哈希
  • 这里,你需要理解什么叫 哈希 (hash),这是理解区块链必需的。

    所谓"哈希"就是计算机可以对任意内容,计算出一个长度相同的特征值。区块链的 哈希长度是256位,这就是说,不管原始内容是什么,最后都会计算出一个256位的二进制数字。而且可以保证,只要原始内容不同,对应的哈希一定是不同的。

    举例来说,字符串 123 的哈希是 a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0 (十六进制),转成二进制就是256位,而且只有 123 能得到这个哈希。(理论上,其他字符串也有可能得到这个哈希,但是概率极低,可以近似认为不可能发生。)

    因此,就有两个重要的推论。

  • 推论1:每个区块的哈希都是不一样的,可以通过哈希标识区块。
  • 推论2:如果区块的内容变了,它的哈希一定会改变。
  • 四、 Hash 的不可修改性

    区块与哈希是一一对应的,每个区块的哈希都是针对"区块头"(Head)计算的。也就是说,把区块头的各项特征值,按照顺序连接在一起,组成一个很长的字符串,再对这个字符串计算哈希。

    Hash = SHA256( 区块头 )

    上面就是区块哈希的计算公式, SHA256 是区块链的哈希算法。注意,这个公式里面只包含区块头,不包含区块体,也就是说,哈希由区块头唯一决定,

    前面说过,区块头包含很多内容,其中有当前区块体的哈希,还有上一个区块的哈希。这意味着,如果当前区块体的内容变了,或者上一个区块的哈希变了,一定会引起当前区块的哈希改变。

    这一点对区块链有重大意义。如果有人修改了一个区块,该区块的哈希就变了。为了让后面的区块还能连到它(因为下一个区块包含上一个区块的哈希),该人必须依次修改后面所有的区块,否则被改掉的区块就脱离区块链了。由于后面要提到的原因,哈希的计算很耗时,短时间内修改多个区块几乎不可能发生,除非有人掌握了全网51%以上的计算能力。

    正是通过这种联动机制,区块链保证了自身的可靠性,数据一旦写入,就无法被篡改。这就像历史一样,发生了就是发生了,从此再无法改变。

    每个区块都连着上一个区块,这也是"区块链"这个名字的由来。

    由于必须保证节点之间的同步,所以新区块的添加速度不能太快。试想一下,你刚刚同步了一个区块,准备基于它生成下一个区块,但这时别的节点又有新区块生成,你不得不放弃做了一半的计算,再次去同步。因为每个区块的后面,只能跟着一个区块,你永远只能在最新区块的后面,生成下一个区块。所以,你别无选择,一听到信号,就必须立刻同步。

    所以,区块链的发明者中本聪(这是假名,真实身份至今未知)故意让添加新区块,变得很困难。他的设计是,平均每10分钟,全网才能生成一个新区块,一小时也就六个。

    这种产出速度不是通过命令达成的,而是故意设置了海量的计算。也就是说,只有通过极其大量的计算,才能得到当前区块的有效哈希,从而把新区块添加到区块链。由于计算量太大,所以快不起来。

    这个过程就叫做采矿(mining),因为计算有效哈希的难度,好比在全世界的沙子里面,找到一粒符合条件的沙子。计算哈希的机器就叫做矿机,操作矿机的人就叫做矿工。

    六、难度系数

    读到这里,你可能会有一个疑问,人们都说采矿很难,可是采矿不就是用计算机算出一个哈希吗,这正是计算机的强项啊,怎么会变得很难,迟迟算不出来呢?

    原来不是任意一个哈希都可以,只有满足条件的哈希才会被区块链接受。这个条件特别苛刻,使得绝大部分哈希都不满足要求,必须重算。

    原来,区块头包含一个 难度系数 (difficulty),这个值决定了计算哈希的难度。举例来说, 第100000个区块 的难度系数是 14484.16236122。

    区块链协议规定,使用一个常量除以难度系数,可以得到目标值(target)。显然,难度系数越大,目标值就越小。

    哈希的有效性跟目标值密切相关,只有小于目标值的哈希才是有效的,否则哈希无效,必须重算。由于目标值非常小,哈希小于该值的机会极其渺茫,可能计算10亿次,才算中一次。这就是采矿如此之慢的根本原因。

    前面说过,当前区块的哈希由区块头唯一决定。如果要对同一个区块反复计算哈希,就意味着,区块头必须不停地变化,否则不可能算出不一样的哈希。区块头里面所有的特征值都是固定的,为了让区块头产生变化,中本聪故意增加了一个随机项,叫做 Nonce。

    Nonce 是一个随机值,矿工的作用其实就是猜出 Nonce 的值,使得区块头的哈希可以小于目标值,从而能够写入区块链。Nonce 是非常难猜的,目前只能通过穷举法一个个试错。根据协议,Nonce 是一个32位的二进制值,即最大可以到21.47亿。第 100000 个区块的 Nonce 值是 274148111 ,可以理解成,矿工从0开始,一直计算了 2.74 亿次,才得到了一个有效的 Nonce 值,使得算出的哈希能够满足条件。

    运气好的话,也许一会就找到了 Nonce。运气不好的话,可能算完了21.47亿次,都没有发现 Nonce,即当前区块体不可能算出满足条件的哈希。这时,协议允许矿工改变区块体,开始新的计算。

    七、难度系数的动态调节

    正如上一节所说,采矿具有随机性,没法保证正好十分钟产出一个区块,有时一分钟就算出来了,有时几个小时可能也没结果。总体来看,随着硬件设备的提升,以及矿机的数量增长,计算速度一定会越来越快。

    为了将产出速率恒定在十分钟,中本聪还设计了难度系数的动态调节机制。他规定,难度系数每两周(2016个区块)调整一次。如果这两周里面,区块的平均生成速度是9分钟,就意味着比法定速度快了10%,因此接下来的难度系数就要调高10%;如果平均生成速度是11分钟,就意味着比法定速度慢了10%,因此接下来的难度系数就要调低10%。

    难度系数越调越高(目标值越来越小),导致了采矿越来越难。

    八、区块链的分叉

    即使区块链是可靠的,现在还有一个问题没有解决:如果两个人同时向区块链写入数据,也就是说,同时有两个区块加入,因为它们都连着前一个区块,就形成了分叉。这时应该采纳哪一个区块呢?

    现在的规则是,新节点总是采用最长的那条区块链。如果区块链有分叉,将看哪个分支在分叉点后面,先达到6个新区块(称为"六次确认")。按照10分钟一个区块计算,一小时就可以确认。

    由于新区块的生成速度由计算能力决定,所以这条规则就是说,拥有大多数计算能力的那条分支,就是正宗的区块链。

    区块链作为无人管理的分布式数据库,从2009年开始已经运行了8年,没有出现大的问题。这证明它是可行的。

    但是,为了保证数据的可靠性,区块链也有自己的代价。一是效率,数据写入区块链,最少要等待十分钟,所有节点都同步数据,则需要更多的时间;二是能耗,区块的生成需要矿工进行无数无意义的计算,这是非常耗费能源的。

    因此,区块链的适用场景,其实非常有限。

  • 不存在所有成员都信任的管理当局
  • 写入的数据不要求实时使用
  • 挖矿的收益能够弥补本身的成本
  • 如果无法满足上述的条件,那么传统的数据库是更好的解决方案。

    目前,区块链最大的应用场景(可能也是唯一的应用场景),就是以比特币为代表的加密货币。下一篇文章,我将会介绍 比特币的入门知识

    十、参考链接

  • How does blockchain really work? , by Sean Han
  • Bitcoin mining the hard way: the algorithms, protocols, and bytes , by Ken Shirriff
  • 举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    你这个很多字符串说得真是张口就来。

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    别咬文嚼字了。谁还不知道hash 有冲突。

    区块链的应用可以渗透到非常多的行业,合同,税收,财产公示(可以含私隐的公示),防伪,交易,选举,信用体系…等等,这些都只是本人想到的,其实也还有更多地方可以去应用,而比特币(泛指去中心加密数字货币)主要应用了财产公示,交易…
    Hash那有个说法是错误的,不过可以忽略不计,改一下也好…

    区块头里有两个hash,一个是指向上一块的hash(应该是上一区块体的hash?),这个应该是已确定的。

    另一个是即将要加入的区块自身的hash,这个hash从本身的内容计算得出(采矿)

    既然“同一内容,hash出来的值”是一样的,那就意味着,区域在加入链之前,内容是不确定的?

    不知道这样理解对不对: 区块先生成必要的数据(比如 A转帐给B多少),然后加上会变化的"随机数",来算hash,算出来满足后,就加到链上。如果是这样,这个“随机数”一般是什么?

    2. 区块的数据格式有约定吗

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    您说的"很多字符串都能得到这个hash,但是他们之间差异很大。"怎么理解,
    是这个hash值被123占有之后, 所有字符串都能知道这个hash被占有了?还是123有了这个hash的同时,其他字符串比如234也能申请一个同样的hash?

    这两个问题后者应该是不对的吧, 如果是前者,这不正是作者表达的吗?还是有更深层次的意义我没有领悟到,小白,望解答.

    有几个问题想问一下。
    1.第四点中说到一个区块改变自己的内容后面的区块会丢失这个区块的指针,结合"六次确认"的理论,所以区块链的结构我理解很有可能是这样的:
    a b c
    | | |
    1--2--3--4--5--6--7--8--9--10--。。。
    | | |
    d e g
    2.全文都没有怎么提区块的内容是什么,但还是很在意,看本文所引用图片好像是数据交换记录,也就是比特币交易记录,那么没有交易发生时内容存的是什么?

    您说的"很多字符串都能得到这个hash,但是他们之间差异很大。"怎么理解,
    是这个hash值被123占有之后, 所有字符串都能知道这个hash被占有了?还是123有了这个hash的同时,其他字符串比如234也能申请一个同样的hash?

    这两个问题后者应该是不对的吧, 如果是前者,这不正是作者表达的吗?还是有更深层次的意义我没有领悟到,小白,望解答.

    hash是一种算法,根据你的输入计算出定长的输出,他说的意思是除了“123”能计算出“ a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0”,还有可能存在其它的字符串能计算得出“ a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0”的值,这叫"HASH碰撞",具体是哪个值或者说有没有都是不确定的,只是一种理论上的可能存在

    有个地方想不明白:
    如果挖矿就相当于找到一个新的满足条件的区块,那么一个区块就相当于一个比特币,那比特币赏金又是什么意思哦?(2009年比特币诞生的时候,每笔赏金是50个比特币;当总量达到1050万时,赏金减半为25个;当总量达到1575万,赏金再减半为12.5个)

    找到一个新区块(序列)到底可以拿到多少个比特币?如果可以拿到多个,这多个又是怎么来的?

    区块头中包含区块体的 Hash,如果一个区块的实际数据发生了改变,那么区块体的 Hash 就会发生改变,这一改变会导致当前区块的区块头发生改变,从而使得区块的 Hash 发生改变,当前区块的 Hash 发生改变又会引起下一个区块的区块头发生改变。如此一来,产生了骨牌效应。

    修改一个区块时,如果不能同时修改后面所有的区块,就会导致当前区块与后面的区块失去连接。所以合适的做法就是不去修改区块。可是万一就有人非要去修改区块该怎么办呢?上面提到的这种联动机制看起来只会使得修改区块后果严重,并不能阻止修改区块的行为。

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。
    'a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0'.length
    40位16进制转换成2进制是160位吧
    40位对应的是SHA1的算法

    82.聊聊比特币背后的技术和Blockchain
    http://teahour.fm/2015/12/27/talk-with-jan-about-bitcoin-and-blockchain.html

    83.这次我们聊聊超酷的Ethereum
    http://teahour.fm/2016/01/19/talk-with-jan-about-ehtereum.html

    我自己整理了一部分区块链的好文和工具,分享给大家 https://bitcoincash.best/wiki
    里面有区块链的基础知识 比特币的基础知识科普和误解 区块链现在的应用情况 分叉币的讨论
    当然也有部分技术讨论
    欢迎大家阅读 更欢迎大家的分享

    反对《熵:宇宙的终极规则》中的世界观。
    热力学第二定律是一个观察的结果,是一个热力学适用的定律。
    宇宙中太多太多违背人们逻辑的存在,没有任何定律能够完全在宇宙的尺度下经历了严格的考验。量子力学越来越被验证不过是时间短而已,一如当初的牛顿力学,电磁学。
    更何况有 刘维尔极力反对,导致了庞加莱回归定理的诞生。
    庞加莱回归:
    孤立的、有限的保守动力学系统在有限的时间内回复到任意接近初始组态的组态。
    如果宇宙是有限的离散动力系统,那就不是“任意接近”,而是完全回到初始状态了。
    就是一切都是轮回。

    还有这些研究都不适用于智慧生命。人类目前的研究连自行车为啥不倒都搞不明白,离弄清楚智慧差太多太多。

    感谢作者的电子书《未来世界的幸存者》看的真过瘾。一口气读完。

    Hash 的有效性跟目标值密切相关,只有小于目标值的 Hash 才是有效的,否则 Hash 无效,必须重算。由于目标值非常小,Hash 小于该值的机会极其渺茫,可能计算10亿次,才算中一次。

    ——————————前面不是说,Hash是唯一的吗?为什么会算出来那么多?

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    是这样. 可以这么说: 123 的 hash 值肯定是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0, 如果数据的 hash 值不是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0,那它一定不是123. 这样就可以知道数据是否被修改.

    引用okevin的发言:

    Hash 的有效性跟目标值密切相关,只有小于目标值的 Hash 才是有效的,否则 Hash 无效,必须重算。由于目标值非常小,Hash 小于该值的机会极其渺茫,可能计算10亿次,才算中一次。

    ——————————前面不是说,Hash是唯一的吗?为什么会算出来那么多?

    因为,比特币的挖矿,其实是在猜数字, (上一区块的信息)+ 随机数 生成的 hash, 符合前面连续出现N个0才算成功。所以,每个矿机都在猜什么样的随机数,才能达到要求

    顺便说一下,hash有很多种算法,作者举例的hash,其实是 hash 中的一种算法,叫做 sha1
    在 linux 控制台运行 echo "123" | sha1sum
    就可以得到 a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0

    但实际上,计算的是 "123\n" 的值,因为echo 输出包含了换行符的。
    单纯 "123" 的 sha1 值应该是
    202CB962AC59075B964B07152D234B70

    我也是奇怪为啥会出现不一致去搜索了一下,才找到别人的这个解答

    做假账,也要计算的啊。而且因为主链是一条完整的,前后可以验证的。所以,没法去改很久之前的记录。这意味着,你要把全世界算几年的所有东西,瞬间全部算出来?

    你去改最新的数据,给某个账户加钱,那么,钱从哪来? 每个挖矿的都可以查所有账单记录,钱不可能凭空转给你。
    你在不知道别人密钥的情况下, 也不能伪造 别人给你转钱的数据

    文章中出现错误:
    `a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0`换成2进制是160,明显是sha1算法算出来的
    而且123的sha1值为`40bd001563085fc35165329ea1ff5c5ecbdbbeef`
    根据上面留言的提示,`123\n`的sha1值为a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0

    123的sha256值为181210f8f9c779c26da1d9b2075bde0127302ee0e3fca38c9a83f5b1dd8e5d3b

    感谢博主的无私分享。文章写的非常好,我反复看了好几遍,以下是我的一些疑问向您请教一下:
    1、区块的计算是持续的,无论网络上面是否有交易都会计算并产生新的区块。因此第一个区块内应该是没有包含任何交易信息的,第一枚比特币是生产第一个区块是奖励给矿工产生的?

    2、比特币网络中的节点指的是矿工,而不是在网络上交易比特币的普通用户?

    3、需要消耗大量的算力才能产生一个新的区块,目的是为了保证比特币的安全,因此比特币区块链这个算力的设计即是它的优点也是它的硬伤?

    4、目前是每产生一个新的区块奖励12.5个比特币,当前市价100多万人民币,如果这个区块包含的所有交易总量只有1个比特币,那么这个奖励和这个交易本身相比是否太高了?这个交易费用和大量消耗的算力是否会成为制约比特币的致命问题?

    5、比特币算力日益集中,有没有可能几个矿场联合起来拥有超过51%的算力?

    我觉得区块链的设计,还不是很完美,怎么说,就是感觉不是特别靠谱的那种。当然,也可能是我眼界窄
    以这个为例
    “现在的规则是,新节点总是采用最长的那条区块链。如果区块链有分叉,将看哪个分支在分叉点后面,先达到6个新区块(称为"六次确认")。按照10分钟一个区块计算,一小时就可以确认”
    林子大了,什么鸟都有,万一不止一个人同时达到6个呢,该取谁?继续?那又万一有两个人同时计算出12个,怎么办呢?
    有点想不通,求解

    区块链的应用场景还是很多的,各种公链便是例证。区块链的应用其实包含币和链两方面。
    结合智能合约技术,区块链更是可以产生无穷的想象空间。资产管理、国际支付、版权保护、防伪溯源,数不胜数。
    互联网降低了信息传输的成本,而区块链将会降低信任的成本。个人还是比较看好区块链的。
    只是区块链的不可控性,倒是对其发展有一定的限制,毕竟官方也不知道怎么来管理它。

    `a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0`换成2进制是160,明显是sha1算法算出来的
    而且123的sha1值为`40bd001563085fc35165329ea1ff5c5ecbdbbeef`
    根据上面留言的提示,`123\n`的sha1值为a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0

    这个留言是不对的,这个123的hash值并没有包括换行符在里面,是sha1本来就是160位的,等效为40位16进制数,而且以你自己的计算机算出来的123对应的sha1值,一定会跟文章中的一样,肯定是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0,因为是处于同一个有限的数值空间中

    我觉得区块链的设计,还不是很完美,怎么说,就是感觉不是特别靠谱的那种。当然,也可能是我眼界窄
    以这个为例
    “现在的规则是,新节点总是采用最长的那条区块链。如果区块链有分叉,将看哪个分支在分叉点后面,先达到6个新区块(称为"六次确认")。按照10分钟一个区块计算,一小时就可以确认”
    林子大了,什么鸟都有,万一不止一个人同时达到6个呢,该取谁?继续?那又万一有两个人同时计算出12个,怎么办呢?
    有点想不通,求解

    时间的精度可以达到10E-18以上,这意味着基本不可能同时达到

    这个留言是不对的,这个123的hash值并没有包括换行符在里面,是sha1本来就是160位的,等效为40位16进制数,而且以你自己的计算机算出来的123对应的sha1值,一定会跟文章中的一样,肯定是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0,因为是处于同一个有限的数值空间中

    修正一下错误,echo的确默认会有换行符在里面,可以使用echo -n '123' | sha1sum得到123真正的hash值,40bd001563085fc35165329ea1ff5c5ecbdbbeef,跟之前几位讲的一样

    不知道这样理解对不对: 区块先生成必要的数据(比如 A转帐给B多少),然后加上会变化的"随机数",来算hash,算出来满足后,就加到链上。如果是这样,这个“随机数”一般是什么?

    2. 区块的数据格式有约定吗

    1. 一个chunk 的确有两个hash, 第一个是上个区块的hash , 第二个是经过挖矿计算得到的.

    那么挖矿 的过程, 实际上是把当前区块的内容(有上个hash), 和一个随机数一起, 进行hash.

    当然可以很轻松的得到一个值, 所以这里存在一个难度, 比如规定, 得到的hash 必须以000000(六个零开头)那么难度就会大大的增大(具体的要求和这个类似,所以存在难度系数).

    一旦这行hash满足了要求, 那么立马全网广播 mined!

    2是有固定格式的, 是json和十六进制数 https://webbtc.com , 用区块浏览器可以很轻松的看到

    "区块链是一种特殊的分布式数据库 ... ... 主要作用是储存信息。任何需要保存的信息,都可以写入区块链,也可以从里面读取,所以它是数据库。"

    这个表述我认为是有问题的,区块链不能称之为“数据库”,并不是可以存储数据就可以叫“数据库”的。

    关于数据库的定义,在中文维基百科中如下定义,https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E5%BA%93,“数据库 ... ...
    用户可以对文件中的数据运行新增、截取、更新、删除等操作”。

    在 webster 词典中定义如下,https://www.merriam-webster.com/dictionary/database,“数据库是一系列有组织的数据,特别用于快速查询和存取”。

    首先,区块链可以新增数据,但是不具备“更新”和“删除”功能。其次,区块链可以存储数据,但是不具备“快速查询和存取“的功能。第三,广义上的区块链是可以存储任意数据,但是目前区块链实际应用最广泛的两个应用,比特币和以太坊,一个只能记录一系列输入和输出的数字,一个只能记录 token,最多是以附言的方式记录简短的一段信息,并不具备数据存储的实用性。

    进一步的,考虑到区块链每个节点的都是存储了所有历史信息的这个特点,利用区块链来存储大量数据也是非常不切实际的。

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    --这个是hash碰撞对吗?

    感谢博主的无私分享。文章写的非常好,我反复看了好几遍,以下是我的一些疑问向您请教一下:

    1、区块的计算是持续的,无论网络上面是否有交易都会计算并产生新的区块。因此第一个区块内应该是没有包含任何交易信息的,第一枚比特币是生产第一个区块是奖励给矿工产生的?

    2、比特币网络中的节点指的是矿工,而不是在网络上交易比特币的普通用户?

    3、需要消耗大量的算力才能产生一个新的区块,目的是为了保证比特币的安全,因此比特币区块链这个算力的设计即是它的优点也是它的硬伤?

    4、目前是每产生一个新的区块奖励12.5个比特币,当前市价100多万人民币,如果这个区块包含的所有交易总量只有1个比特币,那么这个奖励和这个交易本身相比是否太高了?这个交易费用和大量消耗的算力是否会成为制约比特币的致命问题?

    5、比特币算力日益集中,有没有可能几个矿场联合起来拥有超过51%的算力?

    感谢老师这么辛苦的整理文档!

    不过如果仅仅用分布式看待区块链,个人觉得欠妥。我认为区块链仅仅是使用了分布式数据库。

    所以结论部分,我觉得基本上是不太成立的,具体请参考超级账本的发展。

    还有hash计算中的随机值和梅克尔树都是重点,这里没有提到,有时间的话,麻烦老师更新一下吧。然后长链替代短链的机制可以更加具体的说明,比如和难度值是不是有关系。是不是只要长度长就一定能成功替换短的?谢谢!

    我看到天空同学的发言,就想回答一下,有不对的地方,烦请老师指正:

    1、区块链支持无交易记录也能出块,此时交易记录只有默认的第一条,金额是系统发放的(目前是12.5,达到总量之后是0)+交易费(可能是0)的总和。如果此时有其他交易,交易记录就会变多,但是最多不能超过一个块的容量(1M,升级后的是2M,具体看客户端版本)。比特币所有金额总量是有限的,系统分批次奖励给前期的矿工,之后就停止了。所有的交易,金额只能是从一个账户转移到另一个账户,不能新增。

    2、网络节点可以是矿工,也可以是普通用户。可以是客户端,也可以是符合它规则的其他客户端或者恶意软件。只要符合规则(哪怕是带有恶意的)就能加入,这就是去中心化。

    3、没错。工作量证明机制,即是优点、也是硬伤。看你的需求。

    4、奖励是系统规则,每21000块减半。至于价值(人民币汇率),则是人定义的。汇率高-》有机会赚钱-》激励算力投入-》更加耗费能源;费率低-》可能亏本-》打击算力投入-》不太消耗能源。我倒是觉得是一种合理的情况,没啥问题啊。

    5、如果矿场联合起来攻击,那确实有可能。所以比特币在这种情况下,是不可靠的。问题是人家为什么要攻击自己?

    有个关于哈希的地方说的不太合适。
    a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0理论上有无数个字符串的哈希值是它,只是我们找到这些串的难度极高而已。
    说“其他字符串也有可能得到这个哈希,但是概率极低,可以近似认为不可能发生。”可能会让人误认为有可能这个哈希值不存在其他字符串对应。

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    举个例子,随便列出几个你说的很多字符串得到的相同hash

    引用EricJin的发言:

    举例来说,字符串123的 Hash 是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个 Hash。

    而且只有123能得到这个 Hash。

    这句话是错的。很多字符串都能得到这个hash,但是他们之间差异很大。

    赞同,比如如果我们的原始内容有超过2的256次方种,那么必然有哈希一样的。只能说2个原始数据的哈希一样的概率很低。

    有没有大佬解答下我的疑问:

    先总结下:区块分为区块头(header)和区块体(body)。header包含当前区块hash和上一区块hash还有时间戳等信息;body包含账单内容。推论一:Hash = SHA256( 区块头 ),就是说当前区块的hash是根据当前的header当然还有随机Nonce生成的,跟body没有关系。

    那么假设一个旷工算出了符合规则的hash值,然后他开始记账,如果它此时改变了区块体body的账本内容(比如说张三给李四转了1btc改成转了2btc),按照上面的推论一hash值不会随之改变的,然后它广播请求此区块同步到全网。问题来了:此时的hash值是符合规则的,那么其它节点怎么知道这笔账单是有被蹿改的呢?或者如何限制旷工不改变区块体呢?

    对,你说的对,我刚看的时候也觉得有问题,区块主标识符是它的加密哈希值,一个通过SHA256算法对区块头进行二次哈希计算而得到的数字指纹。产生的32字节哈希值被称为区块哈希值,但是更准确的名称是:区块头哈希值,因为只有区块头被用于计算。并且任何节点通过简单地对区块头进行哈希计算都可以独立地获取该区块哈希值。请注意,区块哈希值实际上并不包含在区块的数据结构里,不管是该区块在网络上传输时,抑或是它作为区块链的一部分被存储在某节点的永久性存储设备上时。相反,区块哈希值是当该区块的下一个子区块从网络被接收时由每个节点计算出来的,该子区块将会把这个父区块的Hash值写进自己的区块头里。区块的哈希值可能会作为区块元数据的一部分被存储在一个独立的数据库表中,以便于索引和更快地从磁盘检索区块。

    下面一段话,是有问题的:

    举例来说,字符串123的哈希是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个哈希。

    首先,这段哈希码是 40 个十六进制字符,转换成二进制,该是 160 位。
    另外,字符串 123 的哈希值,我算了一下,如下,
    "md5 202cb962ac59075b964b07152d234b70"
    "sha1 40bd001563085fc35165329ea1ff5c5ecbdbbeef"
    "sha256 a665a45920422f9d417e4867efdc4fb8a04a1f3fff1fa07e998e86f7f7a27ae3"
    与您的数据对不起来。

    我不知道您的引用从哪里来的,百度了一下,这段多是引用您的,我也没有找到源头。
    推测,您这里是 160 位,sha0 和 sha1 都是 160 位输出,我没有找到 sha0 的方法,估计是很久以前,某人用这个算法生成的摘要。但我没找到验证的工具和办法。