信息论
12|压缩比和失真率:如何在信息取舍之间作平衡?
信息的压缩分为有损的和无损的两种。对于无损的压缩,原先的信息能够完全复原,但是通常压缩比不会太高,因为它存在一个极限,就是香农第一定律给的信息熵的极限。对于有损的压缩,信息复原后,会出现一定程度的失真。
通常失真率和压缩比直接相关,压缩比越大,失真率越高。采用什么样的压缩方法,压缩到何种程度,通常要看具体的应用场景。在信息处理这个领域,常常不存在所谓的标准答案和最佳答案,只有针对某个场景的好的答案,而一切都是妥协的结果。
信息压缩看似是信息处理专业的问题,但是它的思想可以用到很多地方。有时强调要把知识学通,就是这个道理。11|信息增量:信息压缩中的保守主义原则
首先,善用信息前后的相关性,对于后面的信息做增量编码,达到大幅度压缩信息冗余的目的。
其次,把这种信息处理的方式,和保守主义的做事方法作了一个对比。所谓保守主义,其实就是坚持总体原则不变,不断作微调,达到渐进改变的目的。这样做,比每一次都推倒重来,或者干脆达不成一致,其实效率反而高,因为世界在绝大多数时候都是渐变的。10|等价性:信息是如何压缩的?
通过信息压缩来说明了等价信息的重要性,当然这个原则的应用要远不止信息压缩这件事情。它对于获取信息,乃至处理信息同样重要。
09|冗余度:《史记》和《圣经》哪个信息量大?
首先,介绍了信息冗余度的概念,并且通过冗余度证明了汉语是最简洁的语言,但是同时也说明了因为汉语的冗余度太低,理解起来比较困难,因此难以学习。
其次,介绍了冗余度带来的三个好处:易理解、消歧义和容错性。
最后是信息冗余也带来了问题,一方面它造成信息存储和传输的浪费,另一方面它在有噪音的情况下,可能导致混淆。08|矢量化:象形文字和拼音文字是如何演化的?
从文字的演变,介绍了信息的矢量化这个概念,以及它的应用。
进而讲述了,无论是象形文字还是天然形成的拼音文字,都通过两到三个维度的矢量化兼顾了读音和达意的关系。但是,如果强制将中文拼音化,它将失去达意的功能,这不符合信息论的原则,因此做不下去。世界上人为想做的,但违背规律的事情,做起来总是困难重重。
在生活中其实也有很多矢量化的例子,它们让问题变得简单,但是会丢失信息,而平衡便利性和信息的完整性,就成为了艺术。07|最短编码:如何利用哈夫曼编码原理投资?
一方面不排斥尝试新东西,这样不会失去机会,尝试过的各种事情,只是绝大部分失败了没有继续罢了。
另一方面对于花了一些精力,看样子做不成的事情,坚决做减法止损,这样可以把最多的资源投入到擅长的,有兴趣的,可能也是成功率最高的事情上。06|有效编码:10个手指能表示多少个数字?
信息编码的两个基本原理:易辨识和有效性;
用实例说明了信息论原理和我们工作的关系。05|信息编码:数字和文字是如何诞生的?
人类创造数字和文字语言的过程,其实都是人类用来消除信息不确定性的编码手段。各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的;
由于它们是等价的,所以,在一个编码系统中解决不了的问题,换一个系统同样解决不了;
香农第一定律告诉我们,只要编码设计得足够巧妙,就可以找到最短编码。04|信息度量:世界上有稳赚不赔的生意吗?
香农告诉大家,信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”。
你可以把一个充满可能性的系统视为一个“信息源”,它里面的不确定性叫做“信息熵”,而“信息”就是用来消除这些不确定性的,所以搞清楚黑盒子里是怎么一回事,需要的“信息量”就等于黑盒子里的“信息熵”。
很多复杂交易背后其实都用到了信息的可度量性。
信息量的大小不在于长短,而在于开创多少新知。03|大数据思维的科学基础
给大家举了四类大数据思维应用在商业上的成功案例:
第一类是解决人工智能问题,是利用数据(信息)消除不确定性,这是香农信息论的本质,也是大数据思维的科学基础。
第二类是利用大数据进行精准服务,从中你可以看出一个商业趋势:公司从重研究方法到重数据收集的转变。
第三类是动态调整做事策略,足够多的数据可以帮助我们动态匹配最佳结果。
最后一类是利用大数据发现未知规律,这背后涉及互信息的理论,是后面课程的重点内容。
这四类大数据应用,都在传达一个信息,那就是大数据的关键是思维方式的变化。
信息既不简单也不复杂,对过去很重要,对当下更是如此,对社会影响深远,对个人也极具指导意义,以至于如今,信息论在经管领域的应用比通信领域本身更广泛和深入。