10|等价性:信息是如何压缩的?

通过信息压缩来说明了等价信息的重要性,当然这个原则的应用要远不止信息压缩这件事情。它对于获取信息,乃至处理信息同样重要。

10|等价性:信息是如何压缩的?

这一讲的主题是:信息的等价性。具体来说是信息是怎么被压缩的。

有人可能会好奇为什么要讲信息压缩的原理,每个人又不会真的去压缩视频。在回答这个问题之前,先从上节课最后留下的那个问题谈起,秦王子婴到底是谁?

上一讲说《史记》这本书里对于他的身世就有三个说法,而且前后差出两代人。第一个说法,说他是秦始皇的弟弟,第二个说法:他是秦二世的哥哥,第三个说法是根据《秦本纪》记载,子婴是秦二世的侄子。这样,从秦二世的上一辈,到平辈,到晚辈都让子婴占了,这当然不可能。那么史学家是如何确定他的身份的呢?这就用到了等价信息。

好,就先从说子婴是秦二世侄子的《秦本纪》里找线索。在《秦本纪》中,还写了子婴在秦二世驾崩后杀赵高的事情,讲他“与其子二人谋”。也就是说,秦始皇的孙子子婴谋划杀赵高时,已经有了两个能够出主意的儿子。要知道,秦始皇49岁就驾崩了,秦二世在3年后也驾崩了,那时子婴还是十多岁的孩子,不可能有两个能出主意的儿子杀赵高。

至于是不是他哥哥,这个可能性就更没有了,因为《史记》中写了秦二世怕他的兄弟和自己争皇位,把他的20多个兄弟都杀了。排除了这两个可能性,子婴只能是秦二世的叔叔了,而《史记》中也没有和这条信息相矛盾的记录。

当然,这是一桩史学界著名的悬案,目前也没有一个定论,这里只是用推导方法演绎了一下,面对错综复杂的信息时,如何利用其他信息的等价性为我们理清思路。而信息等价性的应用,在今天尤其广泛,对于指导处理复杂信息会很有帮助。

在很多时候,直接得到一种信息,或者原封不动地保留一条信息并不容易,但是却可以从等价的信息中导出所要的信息。当然,这样倒手一次的操作需要一个桥梁,让原有的信息和等价信息一一对应。在信息科学中,最著名的桥梁就是傅立叶变换了。

傅立叶是十九世纪法国的数学家,他发现任何周期性的函数(信号)都等同于一些三角函数的线性组合。下面这张图,就是周期性函数的样子,也就是说它们的波形都是重复的。

10|等价性:信息是如何压缩的?

一般来讲,生活中的各种信号,都是随着时间变化的,比如一年中每一天的温度就是一个信号,它从每一年的第一天到第365天会有高有低地变化,如果把历史上全部温度的记录画成一条曲线,它大致就是上图那种周期性函数,一个周期就是一年。

如果要记录100年间每天的平均气温,就需要三万多个数据,这个数据量比较大。但是由于它具有周期性,就有可能利用这种周期性来进行信息压缩。而对于这一类波动信号,信息压缩的基本原理大致如下:

  1. 找到这种周期性信号的等价信息;
  2. 对等价信息进行压缩;
  3. 如果要使用原来的信号,通过压缩后的等价信息复原原来的信号。

这里面的关键,是找到等价信息。对于周期性的信号,等价信息就是一组正弦(或者余弦)波。正弦波的性质如下,大家可能并不陌生,因为它是最典型的波动曲线的性质。

10|等价性:信息是如何压缩的?

世界上所有的正弦波曲线形状都差不多,但是振动的幅度可大可小,振动的频率可高可低。比如下面这张图中的正弦波显然振动的频率就比较高,用句俗话讲,它抖动得特别快。

10|等价性:信息是如何压缩的?

19世纪初,法国数学家傅立叶发现所有的周期性信号都可以用频率和振幅不同的正弦函数叠加而成,也就是说周期性信号里面所包含的信息和若干正弦函数的频率、振幅信息完全等价,这种变换被称为傅立叶变换。

如果利用傅立叶变换,可以将100年里温度变化的信息用大致20根频率和振幅不同的正弦曲线叠加而成。也就是说,100年里3万多个温度样点里的信息,基本上就等价于20个频率数据和20个振幅数据,这样一来信息就被压缩了近百倍。

今天音频、图像和视频的压缩,就是利用这个原理。其中的关键就是找出那个等价的信息。

今天见到的各种音频信号,包括语音、音乐等等,在较短的时间内,都有相对稳定的周期性,比如下图就是一段语音,可以看出它有一定的周期性。利用傅立叶变换,可以对语音进行压缩编码,然后传输,这样可以将语音信息压缩10倍左右,当然这样可能会有很少的信息损失,这一点后面再讲。但不管怎样,这样的信息压缩是非常合算的,比如用微信语音打电话,如果不进行信息压缩,可能要多用十倍的数据流量。

10|等价性:信息是如何压缩的?

那么图像又是怎么压缩的呢?它们看上去不像是有周期性振动的波形啊。这其实只是在宏观上看一幅图,但是如果用放大镜把图放得特别大,看到的就是一个个像素,而且相邻的像素之间颜色和灰度的变化会是相对连续的。利用这个特性,人们发明了一种被称为“离散余弦变换”的数学工具,也称为DCT。

DCT可以被认为是傅立叶变换的延伸,只不过它没有使用正弦波,而是采用了下面图中所示的64个基本灰度模板,任何照片都可以用这些模板组合而成。当然,对于彩色图片需要用带有红绿蓝三原色的彩色模板。这样一幅图片,就变成了一组数字,这些数字是模板中相应的模块的权重。经常使用的JPEG格式的图像,就是这么生成的。

10|等价性:信息是如何压缩的?

当然,对于JPEG图片,会发现各种图像压缩工具允许根据对清晰度的要求,压缩得多一点或者少一点,这里面的技巧后面介绍信息损失时再讲。

通过上述语音和图像的压缩,介绍了信息等价性的应用。很多时候,一种原始的信息,它们虽然里面有很多冗余成分,但是很难直接压缩掉。但可以将它们转化为容易压缩的等价的信息,再进行压缩,然后进行存储和传输。在使用和接收到被压缩的等价信息后,先解压,再恢复回原来的信息。

不仅每一篇文章,每一段语音,每一个图片可以利用信息的等价性分别压缩,将很多相同形式的内容放到一起,还能进行更有效的压缩。有人好奇,在Google上什么东西都能够查到,难道它保存了互联网的所有的内容?这听起来难以置信。其实Google还真这么做了,只不过它在向大众服务时,把所有网页中的文字顺序打乱了,它按照每一个关键词在网页中出现的位置重新整理了互联网的内容。这样不仅方便查找,而且能够压缩信息,节省存储空间。这样当查找时,它不仅能够告诉你你要找的内容在哪里,还能够根据每一个词出现的位置,恢复出原来的网页展现出来。这就是等价性在信息处理中的应用。

善用等价信息,是这个年代每一个人都必须掌握的工作技巧,这是这讲最希望大家记住的一个知识点。比如说无法看清人体内部的情况,但是大家知道人体内有很多水分,水里有氢原子,它的电子在旋转中形成一个个微小的磁针,在人体外面施加磁场,就可以把水分子里的小磁针方向给排顺了,然后加入一个能够和水中氢原子共振的脉冲,就可以把人体氢原子振动的信息取出来。由于人体各个部分水的分布不一样,通过各个部分氢原子振动的信息,就可以把人的结构画出来。这就是核磁共振的原理。因此核磁共振就是利用了等价信息。

类似地,检测引力波的LIGO装置,检测希格斯玻色子的ATLAS装置,用的也是等价信息。今天在医院里做的大部分血项检查,都是在用等价信息。

要点总结

通过信息压缩来说明了等价信息的重要性,当然这个原则的应用要远不止信息压缩这件事情。它对于获取信息,乃至处理信息同样重要。

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/10%ef%bd%9c%e7%ad%89%e4%bb%b7%e6%80%a7%ef%bc%9a%e4%bf%a1%e6%81%af%e6%98%af%e5%a6%82%e4%bd%95%e5%8e%8b%e7%bc%a9%e7%9a%84%ef%bc%9f/

(0)
Xaiat的头像Xaiat超级会员管理员
上一篇 2023年11月29日 15:49
下一篇 2023年11月30日 20:27

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI