任何语言都是一种编码的方式,而语言的语法规则则是编解码的算法。
在上世纪70年代之前,计算机对自然语言的处理集中在分析语句和获取语义,基于规则的自然语言处理。主要是因为当时的学术界存在误区,即要让计算机完成翻译或者是语音识别这样只有人类能做到的事情,就必须先让计算机理解自然语言。因为从直觉上大家都会这么认为。但是相比于上下文无关文法,自然语言这种上下文有关的文法对于同样长度的句子复杂度是前者的万倍,因为上下文有关,所以需要更多额外的信息来表示现在的上下文,以及将自然语言变成及其复杂得树,在计算能力没法跟上的那个年代根本没有办法商用。
从规则到统计
随着保守的教授陆续的退休,慢慢地研究方向从基于规则逐渐转向了基于统计。
15年,对于一个学者来讲是一段非常长的时间,如果哪个人从做博士开始就选错了方向并且坚持错误,到15年后发现时,基本上这一辈子可能就一事无成了。
小结
基于统计的自然语言处理方法,在数学模型和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷–通信联系在一起了。但是,科学家们认识到这个联系却花了几十年的时间。