08|矢量化:象形文字和拼音文字是如何演化的?

从文字的演变,介绍了信息的矢量化这个概念,以及它的应用。
进而讲述了,无论是象形文字还是天然形成的拼音文字,都通过两到三个维度的矢量化兼顾了读音和达意的关系。但是,如果强制将中文拼音化,它将失去达意的功能,这不符合信息论的原则,因此做不下去。世界上人为想做的,但违背规律的事情,做起来总是困难重重。
在生活中其实也有很多矢量化的例子,它们让问题变得简单,但是会丢失信息,而平衡便利性和信息的完整性,就成为了艺术。

08|矢量化:象形文字和拼音文字是如何演化的?

在之前的第6讲,讲了有效编码的原则,可能有同学会想,按照那两个原则,我们的文字,无论是西方的拼音文字,还是东亚的方块字,都不算完美,一方面有些字长得有点像,比如人和入,土和士,没有上下文不好辨认,不符合易识别的原则,另一方面大部分文字作为编码也不高效。

就说英文单词吧,用5个字母就能拼出1200万个单词,即便扣除掉iiiii、jjjjj这种不合理的,也能拼出几十万个看起来很“合理”的英文单词,要是这样的话,所有单词只有5个字母,大家不就不需要背那些很长的英文单词了吗?

对这个问题简单的回答是,语言和文字是慢慢演化过来的,而不是人为利用信息论的编码原理刻意构造的,因此不可能只照顾易辨识和有效性,而不考虑人类接受它们的难度,以及演化的过程。

相反,人们给计算机识别的单词,比如汇编语言的指令代号,基本上就是很短的、等长的字母组合,因为那是完全利用编码原理人工设计的。

当然,在人类文字演化的过程中,也无意间用了一个信息论的原理——信息的矢量数字化(也被称为VQ),或者简单地讲就是矢量化。

今天就从文字和语言的演化过程,来谈谈这个原理以及它们的意义。

人类在进入到文明社会时,活动的范围越来越大,需要记录的信息越来越多,人类就开始通过动词和名词的组合来表达复杂的意思。

但是新概念、新事物还是不断地涌现,人类只好造出更多的象形文字,这就如同今天人们不断创造新词一样。信息越多,需要的编码越多,这是文明自然演变不可避免的过程。

太多不同的编码(文字)出现后,就要对编码进行简化,否则大家就没法学习了。而简化的自然过程,就是矢量化的过程。

那什么是矢量化呢?你一定有这样的经历,就是把一张图片放大再放大,通常就会模糊,出现马赛克甚至锯齿。

学计算机的人知道,计算机中使用的字体有位图(bitmap)和矢量图两种。位图一经放大就会出现锯齿,而矢量图随便放大,都很清晰。这是怎么做到的呢?

先从信息的矢量化说起。

假定有一些几何形状,它们具有不同的颜色。比如下面这张图:

08|矢量化:象形文字和拼音文字是如何演化的?

这些基本的图形彼此有一些相似性,但是又不完全一样。只画了十四个不同的形状,当然真实的情况是它们可能有成千上万个。

这么多图形,一个个描述太复杂,于是就把这成千上万个彩色的形状,按照颜色和形状两个维度各四种情况,分到了16个格中。

这样,所有的图形,就被归为了16类。当然,其中还有四个格子没有信息,因此可以看成是不存在的。这便是矢量化的原理。

这个用坐标分类,概括多种形状,就是形状的矢量化过程。当然,如果分类所概括的是信息,不是图形,道理是一样的。

为什么这种特殊的归类过程,称之为矢量化呢?因为当我们把杂乱无章的信息投射到两个维度之后,两个维度坐标可以决定平面上的一个矢量。

比如在上面的例子中,要找圆形和椭圆形的蓝色图形,就用下面这个从原点出发到(4,2)坐标的矢量来表述:

08|矢量化:象形文字和拼音文字是如何演化的?

当然,通常将信息投射到两个维度是不够的,根据应用场景会投射到多个维度中,这样的过程就被称为矢量化。

人类象形文字的演化,实际上就是这样一个矢量化的过程。不妨先看看各种象形文字演化的过程。

文字演化的第一步是抽象化。下面一张图描述了美索不达米亚文字(上)、古埃及文字(中)和古代中国的文字(下),对“鱼、鸟、戚、矢(“有的放矢”的“矢”,也就是箭)、壶”这五个字抽象化的过程。

08|矢量化:象形文字和拼音文字是如何演化的?

美索不达米亚文字(上)、古埃及文字(中)、古代中国的文字(下):鱼、鸟、戚、矢、壶的写法

你可以看出最初的文字和真实的物体非常相似,但是这些象形文字彼此之间缺乏共性。

但是后面逐渐地,它们就被抽象化成一些直线或者弧线了。在中国和美索不达米亚,由于早期的文字是刻在金石、竹木和泥板上,因此,更多被抽象化成点和线的组合,这样便于刻写。

而古埃及是写在莎草纸上的,能够使用曲线书写,因此多用曲线进行抽象化。但不管怎么样,抽象化之后,就可以总结出共性了。

接下来第二步,就以汉字为例来说明矢量化的过程。

绝大多数汉字被映射到两个维度上,即一个表意的偏旁维度和一个提示读音的发音维度,有些时候,提示读音的维度本身也表意。

再往后,表达含义的偏旁已经和原来的图画不太像了。而这些偏旁就构成了文字的基本单元,而且慢慢固定下来了。

以后有新的概念需要创作出新字时,使用那些基本单元,即偏旁部首,重新组合就可以了。比如唐朝的宗秦客为武则天发明了一个“曌”字,意思是日月当空,献给武则天拍马屁。

当然,很多古代人所表达的信息今天早已经过时了,因此大量的古体字其实今天已经废了。虽然《康熙字典》里收集了47000个汉字,但是3000多个一级国标汉字已经能覆盖今天98%以上的文本了。

类似地,在《牛津词典》中有大约1/4的词今天已经不用了。今天的人,更习惯于用现有的字发明新词,而不是造字。

好,说完了象形文字的演化。再看看拼音文字是如何矢量化的。

拼音文字的简化主要是围绕读音进行的。在美索不达米亚人发明了楔形文字后,它很快就由象形文字变成了拼音文字。但是那些拼音文字并不简单,每一个表达意思的拼音其实是一堆很复杂的小箭头(很像楔子,所以也被成为楔形文字)。

后来楔形文字被当地的闪米特人学会了,他们中间有一支非常善于远洋经商的族群——就是腓尼基人。

腓尼基人将美索不达米亚的文字传播到地中海各岛屿。但是,在经商途中,商人们可没有闲情逸致刻写精美漂亮的楔形文字,于是他们对这种复杂的拼音文字进行了进一步简化,就剩下几十个字母了。

可以讲,从复杂的楔形文字,变成简单的几十个字母,是一个巨大的进步,它使得人类学习读写变得很容易。再后来希腊人从腓尼基字母中总结成24个希腊字母,而罗马人又将它们变成22个拉丁字母。

随着罗马的扩张,征服了很多外国土地,吸纳了很多外国人,有些外国的人名和地名就无法表示了,于是罗马人在字母表中加入了x,代表所有那些无法表示的音和词,这既是英语里包含x的单词特别少的原因,也是后来人们用x表示未知数的原因。

再后来拉丁文里的i被拆成了i和j两个字母,v被拆成了u,v,w三个字母,最终就形成了今天英语的26个字母。

今天欧洲其它的拼音文字大多源于拉丁语,虽然它们字母表的多少略有区别,而且读音不同,但是写法上相似,因为同一种写法表达的是同一条信息。

虽然象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式,但是它们都利用了信息论中矢量化的原理。

在欧洲的拼音文字中,虽然没有表达意思的偏旁部首,但是有很多词根,前缀和后缀起到了表达意思的作用,也就是说这些语言实际上将表达信息的基本单元(单词)用一个词根、前缀、后缀这样三维的矢量表示了。

于是,稍微有些语言基础的人,可以猜出一些没见过的单词的含义。正因为这个原因,拼音文字比汉语容易学。

在近代史上,曾经有不少学者提出过将汉字改为拼音文字,但其实这是不可行的。比如你把计算机变成jisuanji这几个罗马字母,它完全没有词根、前缀和后缀,因此猜不出意思。

信息的矢量化这件事应用的场景非常广,前面提到的矢量字体就是一个,它的原理是将字体的轮廓映射到一组曲线上。在显示(和打印)时,经过一系列的数学运算,恢复字体的形状。

这一类字库不仅占用空间小,而且从理论上可以被无限地放大,笔划轮廓仍然能保持圆滑,非常美观。

此外,矢量化在生活中也有应用,比如通过高考成绩录取大学生,或者通过身高选拔篮球运动员,其实就是利用矢量化的原理,只不过是将所有的人映射到了一维的空间中。

这种做法给工作带来了极大的便利性,但是显然没有全面地考察每一个人,或者说有信息的损失。

所以,在信息论中,一个更有普遍意义的问题就是,矢量化会带来多大的信息损失,关于这一点,在信息论中有一套理论计算这种损失。

而在工程中大家要做的事就是,如何平衡便利性和信息上的损失。人在年轻的时候,总是会想两者兼而有之,学习了各种科学知识后,就知道这种事情在理论上是办不到的。

要点总结

  1. 从文字的演变,介绍了信息的矢量化这个概念,以及它的应用。
  2. 进而讲述了,无论是象形文字还是天然形成的拼音文字,都通过两到三个维度的矢量化兼顾了读音和达意的关系。但是,如果强制将中文拼音化,它将失去达意的功能,这不符合信息论的原则,因此做不下去。世界上人为想做的,但违背规律的事情,做起来总是困难重重。
  3. 在生活中其实也有很多矢量化的例子,它们让问题变得简单,但是会丢失信息,而平衡便利性和信息的完整性,就成为了艺术。
08|矢量化:象形文字和拼音文字是如何演化的?

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/08%ef%bd%9c%e7%9f%a2%e9%87%8f%e5%8c%96%ef%bc%9a%e8%b1%a1%e5%bd%a2%e6%96%87%e5%ad%97%e5%92%8c%e6%8b%bc%e9%9f%b3%e6%96%87%e5%ad%97%e6%98%af%e5%a6%82%e4%bd%95%e6%bc%94%e5%8c%96%e7%9a%84%ef%bc%9f/

(2)
Xaiat的头像Xaiat超级会员管理员
上一篇 2023年11月28日 09:07
下一篇 2023年11月29日 09:25

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI