09|冗余度:《史记》和《圣经》哪个信息量大?

首先,介绍了信息冗余度的概念,并且通过冗余度证明了汉语是最简洁的语言,但是同时也说明了因为汉语的冗余度太低,理解起来比较困难,因此难以学习。
其次,介绍了冗余度带来的三个好处:易理解、消歧义和容错性。
最后是信息冗余也带来了问题,一方面它造成信息存储和传输的浪费,另一方面它在有噪音的情况下,可能导致混淆。

09|冗余度:《史记》和《圣经》哪个信息量大?

上一讲说到中文比西方拼音文字更精炼,还总是听说联合国的同一份报告,只有中文报告是最薄的。这种说法到底是不是真的?是否是自己往自己脸上贴金呢?其实可以用信息论来证明。

中文是否简洁,不妨先看一个具体的例子,做的一个实验:量化度量一下《史记》和《圣经》的信息量。

为什么统计这两本书呢?因为这样经典的典籍语言相当精炼,比较有代表性,而且在翻译成不同语言的版本时,都极为仔细准确。相比之下,文学作品的翻译随意性就较大。

先把《圣经》的中英文版本分别进行压缩,然后对比大小。

《圣经》的英文版有80万个英文单词,扣除掉空格和标点符号,存下来接近4MB。你可以认为将它们用今天计算机常用的ASCII编码书写后,长度是四百万字节。

然后又找到《圣经》的中文版本,用的是比较流行的“和合本”,原文有93万多字。和合本虽然是白话文,但是翻译得极为紧凑,一点废话没有。如果用国标汉字存储它,接近2MB,也就是说大约只有英文文本的一半。

当然学过计算机的同学会说,国标编码本身就比英文的ASCII编码紧凑,事实也的确如此,考虑到这个因素,挤掉国标和ASCII编码中的水分,中英文编码长度的差距大约缩小30%。

即便如此,汉语的文本依然可以比英语的短30%多,也就是说汉语的文本和英语文本在公平的基础上作对比,长度是2:3左右,具体讲是1.6MB vs 2.5MB。

那么接下来的一个问题是,不同语言的《圣经》是否信息量同样大呢?采用了课程第7讲讲到的哈夫曼编码对《圣经》进行压缩,中文和英文大致都能压缩到750KB,当然如果尽可能地利用上下文的相关性,可以进一步压缩,但这不是我们的目的。

只是想证实一本经典的信息量不会因为使用不同语言书写而不同,这其实也证实了前面讲到的编码的等价性(不同语言可以被看成是不同的编码),即同样的信息采用不同的编码,信息量是不变的。

从这些数据可以看出,英语的压缩比高达3:1(2.5MB到750KB),而中文大约为2:1(1.6MB到750KB),也就是说中文更精炼。

当然,《圣经》毕竟不是中国人自己写的书,它的表达方式也未必符合中国人的习惯,事实上你如果读“和合本”的《圣经》,你会发现它的句子和日常说话的方式差异挺大的。

因此,又用中国自己的经典《史记》做了一次信息压缩的实验。《史记》大约有53万字,如果直接按照国标码存储大约要1.1MB,当然国标码本身在编码上是有水分的,因此在挤掉水分后,《史记》的编码长度应该是900KB左右。

如果采用上面同样的哈夫曼编码程序对它压缩,压缩完不到500K,压缩比大约为1.8:1,和中文《圣经》的压缩比是差不多的。

你可以看看这个表格中它们的对比结果:

09|冗余度:《史记》和《圣经》哪个信息量大?

那么结论就来了,从上面的例子可以看出,中文的信息比较“密集”,相比之下,英文(和其它欧洲语言)比较“稀疏”。在信息论中,采用一种叫做冗余度的概念对信息的这种“密集”和“稀疏”程度进行描述。冗余度是这样定义的:

(信息的编码长度 – 一条信息的信息量)/ 信息的编码长度

大家知道信息量其实就是按照信息熵计算出来的。

在上述例子中,中文的冗余度大约是1/2,英文的冗余度为2/3,如果对其它书籍的双语文本作同样的对比,也能得到类似的结果。因此,中文简洁是完全有科学根据的。

接下来可能你会想,简洁不是一件好事么?冗余不是应该尽力去消除吗?如果原本需要读5000字节的内容,现在只需要读3000字节,那不是省时间了么?

其实不然,因为如果冗余度太低,会严重影响接收信息的速度。比如对一篇经典的论文和一篇小说进行压缩,就会发现小说的冗余度要高得多,但也正是因为如此,小说才容易阅读。

相比之下,像沃森和克里克描述DNA双螺旋结构的论文,一共一页纸多一点,几乎每一个单词都不能漏掉,理解起来反而要花一点时间。

也就是说,对于同一种语言,不同题材的文章,信息的冗余度差很多。如果对小说进行压缩,压缩比要高不少,也就是说小说的冗余度极高。

可能你有这样的体会,有些小说看上去很厚,但是信息量似乎并不大,一段文字就能把整个故事概括说清,就是这个原因。这是语言中冗余度的第一个好处,也就是便于理解。

除了便于理解,冗余度的第二个好处是,在语言学上它消除了很多歧义性。

汉语简洁的一个重要原因,是对比英语,汉语去掉了动词的各种时态、性别、单复数,和语气等信息,名词去掉了数量和阴阳信息,绝大部分名词去掉了正式和非正式的信息,所有这些信息都需要通过上下文来恢复,这其实就花工夫了,如果恢复得不好,在意思的理解上会略有差别,这就造成了误解。

相比之下,极为严谨的拉丁语和法语则没有这个问题。比如在英语中,名词和动词数量的一致性,语句中语气和写法的一致性,都保证了相应的信息不容易漏掉。这都归功于它们的冗余度大。

冗余度的第三个好处是:带来信息的容错性。大家有这样一个经验,如果你的朋友给你发送了一个文本文件,这个文件丢失了一段,你依然能够得到大部分内容,甚至能够通过前面或者后面的内容恢复出一部分丢失的内容。

但是,如果他把文件压缩成Zip格式了,而压缩后的文件少了一点,你就惨了,完全无法恢复其中的内容。

冗余度带来好处,最著名的例子就是通过罗塞塔石碑破解古埃及文字的例子。这里只作一个简单的说明。

1801年,拿破仑远征埃及时,一个军官在一座古神庙的遗址上发现了一块古埃及石碑,上面刻有三种语言:除了古希腊文,还有两种他不认识的文字。

21年后,著名的语言学家商博良,根据石碑最下方的古希腊文字,破译出中间的世俗体古埃及文字。从此,尼罗河流域五千年文明的面纱就此揭开。

一块石碑上刻有三种语言,从记录信息的效率上讲是极低的,信息冗余度至少是2/3,但是正是因为有信息冗余,才能够利用另一种信息找回原来丢失的信息。

当然,凡事有一利必有一弊,信息冗余自然有它的问题。

首先,大家能够直接感受到的就是在存储和传递信息时的浪费。可以想象,如果你存储的文件,编码的长度是信息量的好几倍,肯定是浪费。当然有人可能在想,现在存储器便宜得很,网速也很快,冗余就冗余吧,浪费不了太多钱。

但是要知道文字的冗余度是在各种信息中非常低的。如果你传输标准的4K电视,对于任何信息冗余,一点也不压缩,那你的网速需要每秒钟12Gbps,也就是采用光纤入户后峰值传输率的大约10倍,今天家庭使用的Wi-Fi的200倍左右。

当然,你今天能收看4K电视,是因为通常这种视频图像的信息冗余度极高,压缩几十倍也不会损失任何信息,如果允许略微损失一点信息,则可以压缩上千倍。

信息冗余的第二个问题是,如果在信息中混有噪音,过多没用的信息可能会导致错误。

在前面讲述信息时,都是假设它是准确无误,没有噪音的。但是在真实的世界里,很少有绝对干净的信息,它们总是混有噪音的,这些冗余的信息就可能彼此矛盾,这反而让大家糊涂。

就说准确性极高的《史记》吧,里面经常会对一件事有两种完全不同的描述,哪一种是真的,就是很大的问题了。

比如说,关于秦朝的末代秦王子婴是谁,《史记》里就有三种说法:秦二世胡亥的侄子(扶苏的儿子),秦二世的哥哥,秦始皇的弟弟(即秦二世的叔叔),到底哪个是真的?大家就糊涂了。这样的例子在《史记》中极多。

至于为什么司马迁这么做,史学家一般认为,因为对一些史实他也拿不准,因此把常见的说法都列出来,让读者自己判断。但是,如果在和别人交流时,这样自相矛盾的冗余信息给多了,大家会觉得这样说话完全不靠谱。

那么这些原理和我们的工作有什么关系呢?善用信息冗余会帮助我们成为沟通的高手,这里有这样三点体会供你参考:

  1. 讲东西时要通过加入一些看似是废话,但是实际上是从侧面诠释你的想法的句子,帮助对方理解你的意思。比如常说“换句话说”,“比如说”,“从另一方面讲”这样的话,这就是利用信息的冗余便于大家理解。
  2. 讲东西要有一致性,不要补充有可能和主要思想相矛盾的例子,或者和想法无关的冗余信息。
  3. 在我们脑子存储信息时,要进行压缩,这样脑子才记得住事情。很多人读那么多书,记那么多事情,怎么记得住的?其实无论读书,还是学习,都可以做类似于写卡片的工作,也就是说,把这一本厚厚的书的内容,变成薄薄的几页纸的东西,那些冗余的信息,就删除掉了。所以说,读书要不求甚解。这不是说不读懂,而是说要读出主线,将一些细节过滤掉。真到了需要寻找细节时,大不了回过头来再看看就好了。

要点总结

  1. 我们介绍了信息冗余度的概念,并且通过冗余度证明了汉语是最简洁的语言,但是同时也说明了因为汉语的冗余度太低,理解起来比较困难,因此难以学习。
  2. 我们介绍了冗余度带来的三个好处:易理解、消歧义和容错性。
  3. 但是信息冗余也带来了问题,一方面它造成信息存储和传输的浪费,另一方面它在有噪音的情况下,可能导致混淆。

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/09%ef%bd%9c%e5%86%97%e4%bd%99%e5%ba%a6%ef%bc%9a%e3%80%8a%e5%8f%b2%e8%ae%b0%e3%80%8b%e5%92%8c%e3%80%8a%e5%9c%a3%e7%bb%8f%e3%80%8b%e5%93%aa%e4%b8%aa%e4%bf%a1%e6%81%af%e9%87%8f%e5%a4%a7%ef%bc%9f/

(1)
Xaiat的头像Xaiat超级会员管理员
上一篇 2023年11月29日 09:25
下一篇 2023年11月30日 09:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI