07|最短编码:如何利用哈夫曼编码原理投资?

一方面不排斥尝试新东西,这样不会失去机会,尝试过的各种事情,只是绝大部分失败了没有继续罢了。
另一方面对于花了一些精力,看样子做不成的事情,坚决做减法止损,这样可以把最多的资源投入到擅长的,有兴趣的,可能也是成功率最高的事情上。

07|最短编码:如何利用哈夫曼编码原理投资?

如何对信息进行编码才最有效?这个问题一直困扰着人们,莫尔斯电码根据常识对经常出现的字母采用较短的编码,对不常见的字母用较长的编码,这样就可以降低编码的整体长度。

下面这张图,其中圆点(嘀)代表电报机的继电器短暂的接触,长线(嗒)代表长时间的接触(要求至少是短接触时长的三倍以上)。

07|最短编码:如何利用哈夫曼编码原理投资?

莫尔斯电码对英文字母和数字的编码

那么,莫尔斯电码确实做到了更有效的编码,但那是不是最优呢?还能不能更短呢?人们对此并不知道。

如果对英语26个字母采用等长度的编码,比如进行二进制编码,需要log26。

注:这里默认log函数的底都是2,也就是二进制0或1在每一位上的两种可能,需要多少位,就是多少个次方,也就是多少个比特的信息

那么log26就是约5比特信息。而采用莫尔斯的编码方法,平均只需要3比特,这个效率就高了很多,这样发报,时间就能节省大约1/3左右。

在谍战片中经常看到报务员还没有发完报,敌方的特工就冲了进来,这种场景并不完全是虚构的,因为在二战时欧洲德占区这种情景时常出现,因此省一点时间就意味着自身的安全。即使不考虑战争中的特殊情况,省掉三分之一的通信成本,也是很可观的。

无独有偶,全世界除美国之外,各国在设计长途电话区位码的时候,也充分考虑了每一个城市和地区的电话机数量,比如在中国北京、上海等重要城市就是两位,小城市就使用3位,这样做的目的是为了减少平均的编码长度。

那么是否能够证明,越常出现的信息采用较短的编码,不常出现的信息采用较长的编码,就能比采用同样码长的信息总体上更合算呢?答案是肯定的。

详细的推导步骤:

不妨看一个具体的例子。假定有32条信息,每条信息出现的概率分别为1/2、1/4、1/8、1/16……依次递减,最后31、32两个信息出现的概率是1/2^31、1/2^31(这样32个信息的出现概率加起来就是1了)。现在需要用二进制数对它们进行编码。等长度和不等长度两种编码方法,来对比一下:

方法一:采用等长度编码,码长为5。因为是log32=5比特。

方法二:不等长度编码,如果出现概率高就短一些,概率低就长一些。

把第一条信息用0编码,第二条用10编码,第三条用110编码……最后31、32两条出现概率相同,都很低,码长都是31。第31条信息就用1111……110(30个1加1个0)编码,第32条信息,就用1111……111(31个1)来编码。

这样的编码虽然大部分码的长度都超过了5,但是乘以出现概率后,平均码长只有2,也就是说节省了60%的码长。如果利用这个原理进行数据压缩,可以在不损失任何信息的情况下压缩掉60%。

事实上,这种最短编码方法等于香农第一定律的继续,它最早是由MIT的教授哈夫曼发明的,因此也被称为“哈夫曼编码”。

关于哈夫曼编码有三个要点值得一提:

1.如果还记得第5讲的香农第一定律,一定知道编码长度是有个理论最小值的,从数学上可以证明哈夫曼的这种编码方法是最优化的。

2.哈夫曼编码从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最大的信息。至于资源如何分配,哈夫曼给出了一个原则,也就是一条信息编码的长度和出现概率的对数成正比。

注:比如在上面的例子中,第一条消息出现的概率为1/2,大家知道1/2(以二为底)的对数等于-1,因此它的编码长度就是1(即码0)。最后两条消息出现的概率为1/2^31次方,取对数后等于-31,因此它们的编码长度就是31。

如果回顾一下莫尔斯电码,就会发现它是不自觉地采用了哈夫曼编码的原理。只是它没有严格统计各个字母的频率,没有完全做到最优化。

在一个极端的情况下,如果所有的信息出现的概率相同,采用哈夫曼编码,每一条信息的码长都一样,这时哈夫曼编码就变成了等长编码,没有优势了。

3.在现实生活中,很多信息的组合,比单独一条信息,其概率分布差异更大,因此对它们使用哈夫曼编码进行信息压缩,压缩比会更高。比如说,在汉语中,如果对汉字的频率进行统计,然后压缩,一篇文章通常能压缩掉50%以上,但是如果按照词进行频率统计,再用哈夫曼编码压缩,可以压缩掉70%以上。

讲完了哈夫曼编码的原则,那么它又是怎么应用到我们的工作生活中呢?

其实,但凡需要分配资源的工作,它都有指导意义。凯鹏华盈虽然换了三代掌门人,但它能在四十多年,20多期基金中,平均每一期基金的回报总是有40倍左右,这说明它不是靠一两个人天才的眼光,而是有一整套系统的方法,保证投资的成功率。

那么它投资方法中的秘诀是什么呢?其实就是哈夫曼编码的原理,即通过每一次双倍砸钱(double down),把最多的钱投入到最容易成功的项目上。它具体操作的方法可以用这样一个例子来说明。

假定一期基金有1亿美元可以用来进行风险投资,怎样投资效果最好?列出三个做法:

1.平均地投入到100个初创公司。

2.利用我们的眼光投入到一家最可能的公司中。

3.利用哈夫曼编码原理投资。

另外还假设如果投资的公司最后能上市,将获得50倍的回报;如果上不了市,只是在下一轮融资被收购,将获得3~5倍的回报。在硅谷地区,获得投资的公司最终能上市的概率大约是1%,大家不要觉得这个比例低,它已经比世界其他地区,包括美国硅谷以外的地区和中国,高很多了。至于被收购的概率,在硅谷地区大约是20%,比中国要高很多。

如果使用第一种方法,基本上是拿到一个市场的平均回报,也就是一轮基金下来大约是31%到71%的回报,如果扣除管理费和基金本身拿走的分红,出资人大约能得到20%~50%左右的回报。通常一期风险投资基金投资的时间是2~5年(持续的时间可以长达7~10年),这样年化回报大约是5%~20%之间。

这是硅谷风险投资的平均水平,大家不要觉得风险投资一定能挣钱,在中国,大部分风险投资基金是赔钱的,而在硅谷赔钱的基金的比例也高达40%。

第二种方法,只投一家,这其实是赌博,如果碰上这家公司上市,有50倍的回报,碰上被收购的有2~5倍的回报,但是绝大多数情况则血本无归。

如果所有的基金都玩这样的赌博,虽然平均回报率和第一种情况相似,但是投资风险高达500%。根据投资领域普遍采用的夏普比率来衡量,这是极为糟糕的投资方式。

第三种方法是按照哈夫曼编码的原理,可以先把钱分成几部分逐步投入下去,每一次投资的公司呈指数减少,而金额倍增。具体操作方法如下:

第一轮,选择100家公司,每家投入25万美元,这样用掉2500万美元。

第二轮,假定有1/3的公司即33家表现较好,每家再投入75万美元左右,也用掉2500万美元。至于剩下了的2/3已经死掉或者不死不活的公司,千万不要救它们,更不要觉得便宜去抄底。

第三轮,假定1/10的公司,即10家表现较好,每家投入250万美元,再用掉2500万美元。

第四轮,假定3%的公司,即3家表现较好,每家投入800万美元左右,用掉最后的2500万美元。

这样通常不会错失上市的那一家,而且还能投中很多被收购的企业。由于大部分资金集中到了最后能够被收购和上市的企业中,占股份的比例较高,这种投资的回报要远远高于前两种,大家可以估算一下,大约有3~10倍的回报。

当然,这还达不到凯鹏华盈40倍的回报,但是已经非常好了。也可以认为,一个系统的方法和坚守纪律能够带来3~10倍的回报,而对于凯鹏华盈来讲,投资人的经验和人脉,带来的是剩下的那几倍回报。

当然大部分人不会去参与风险投资,但是这种分配资源的原则在哪儿都适用。Google和Facebook等公司的管理方法是它们内部其实是一个大风投,各个项目一开始都有获得资源(主要是人力和财力)的可能性。

但是很快,通常是三个月到半年,类似的项目就要开始整合,资源开始集中到更有希望的项目上去。最后能够变成产品上市的,是少数项目,但是大量的资源投入在其中了。这样既不会失去新的机会,也不会浪费资源。

今天的华为养了一个拥有几万人的庞大的预研部门,很多人觉得这是有了钱之后嘚瑟浪费,但是可以把它看成是一个内部的大风投,每一个前期研究,都得到一定的发展机会,而投入的资源并不需要太多,最后能够进入到获得巨大资源攻坚阶段的项目,终究是少数。

这个道理对个人来讲也是适用的。美国有名的私立学校哈克学校的前校长尼克诺夫博士讲,在孩子小时候,要让他们尝试各种兴趣爱好,但是最终他们要在一个点上实现突破,他将这比做用圆规画圆,一方面有一个扎得很深的中心,另一方面有足够广的很浅的覆盖面。

要点总结

一方面不排斥尝试新东西,这样不会失去机会,尝试过的各种事情,只是绝大部分失败了没有继续罢了。

另一方面对于花了一些精力,看样子做不成的事情,坚决做减法止损,这样可以把最多的资源投入到擅长的,有兴趣的,可能也是成功率最高的事情上。

07|最短编码:如何利用哈夫曼编码原理投资?

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/07%ef%bd%9c%e6%9c%80%e7%9f%ad%e7%bc%96%e7%a0%81%ef%bc%9a%e5%a6%82%e4%bd%95%e5%88%a9%e7%94%a8%e5%93%88%e5%a4%ab%e6%9b%bc%e7%bc%96%e7%a0%81%e5%8e%9f%e7%90%86%e6%8a%95%e8%b5%84%ef%bc%9f/

(1)
Xaiat的头像Xaiat超级会员管理员
上一篇 2023年11月27日 09:46
下一篇 2023年11月28日 09:07

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI