辞达而已矣

—— 孔子

形式语言与自然语言浅识

宋方敏

20035月南京大学101周年校庆

 

§1. 符号及其逻辑

§2. 一阶谓词演算语言

§3. 的在自然语言中的解释

§4. 理解自然语言

 

§1. 符号及其逻辑(Symbolic Logic

Definition 1.1Pierce

某种对某人来说在某一方面或以某种能力代表某一事物的东西,即符号。

 

Definition 1.2Longman字典)

Symbol=a sign, shape, or object which represents a person, idea, value, etc.

 

Definition 1.3Hjelmslev

符号=表现(expression)+意义(meaning

表现与意义为矛盾的对立物,而矛盾的统一即为符号。

 

语言=符号的系统。

自然语言(人类的),数学(大自然的),音乐(神的)等皆为符号系统。

自然语言表达人的思想与情感,符号逻辑—思想与推理的形式语言。

 

历史回顾

·Aristotle384—322 B.C.)工具论  三段论推理。

·F. Bacon1561—1626)新工具。

·R. Descartes1596-1650)方法谈,论证自我的存在和上帝的存在。

·Leibniz1646—1716Leibniz的理想建立一普适的人工语言,在其中能推理和计算。

·G. Boole1815—1864)建立人类思维的代数规律的系统,Boolean algebra

·G. Frege1848—19251879出版Begriffsschrift(概念文字),严格建立人类第一个人工的形式语言PK

·G. Peano1858—1932)建立算术的形式语言PAPeano’s Arithmatic)。

·G. Cantor1845—1918)建立Set Theory,表达整个数学的形式语言

·B. Russell1872—1970)与他老师Whitehead合著Principia Mathematica3卷),逻辑主义的创始人。

·D. Hilbert1862—1943)著作几何基础,数学基础,建立几何和数学的形式语言。

·A. Turing1913—1954)发明Turing’s Machine(计算机的原型),建立Computation的形式语言

·K. Gφdel1906-1978PK的完全性定理 PA的不完全性定理

 

注:在2000年,美国的TIMES请专家和公众评20世纪各门学科的the greatest mindTuringGφdel分别列计算机科学和数学第一人。

 

 

§2. The 1st order predicate calculus

一阶谓词演算的语言记为,这是人类第一个人工的形式语言

由以下组成:

1)个体符号

1.1)个体变元(individual variables

1.1.1v为变元

1.1.2)若x为变元,则为变元

1.1.3)变元仅限于此。

i.e., In BNFV=v|V′)

1.2)个体常元(individual constants

1.2.1c为常元;

1.2.2)若d为常元则为常元;

1.2.3)常元仅限于此.

2)函数符(functions

2.1)函数变元f0f1f2,…

2.2)函数常元g0g1g2,…

每个函数f有一个arity>0

3)谓词符(predicates

3.1)谓词变元p0p1,…

3.2)谓词常元q0q1,… 约定等词为二元常谓词

每个谓词p有一个arity>0

4)命题(propositions

4.1)命题变元P0P1,…

4.2)命题常元TF

5)联结词(Connectives,∧,∨,.

6)量词(quantifiers 

7)辅助符:(,),· [ ]{}

至此的字母表已构成,下面发展它的语法(syntax

定义2.1(项,term

1)个体为项;

2)若fn元函数,t1,…,tn为项,则ft1,…,tn)为项;

3)项仅限于此

定义2.2(原子公式,atomic formula

1)命题为原子公式;

2)若pn元谓词,t1,…,tn为项,则pt1,…,tn)为公式;

3)原子公式仅限于此.

定义2.3(公式,formula

1)原子公式为公式

2)若为公式,则为公式;

3)若为公式,则为公式;

4)若为公式,x为个体变元,则为公式;

5)公式仅限于此

为公式且无自由变元出现,则称为句子(sentence)。

Frege教授在上建立一个逻辑PK

PK由一组公理(axiom)和一个规则rule构成,若公式PK中可推出,

则记为|—,在符号|—中,横画表示命题,竖画表示判断的画符。

公理为反映最基本的被认为永真的公式,如(排中律)

规则为MP|—(肯定前件推论),

PK是不矛盾(consistent)且完全(complete)。

我们只给出语言的语法(syntax),下节论述它的语义(semantics)。

 

§3. 在自然语言中的解释(interpretation

本节论述的成分怎样由自然语言解释,从而给出一种自然语义。

1)个体指可独立存在的东西,如:长江,1,魂, 等。

2)函数指从个体到个体的映射(mapping),如:+ .

3)谓词指个体具有的性质,如:红的,大于等。“=”解释为“等于”.

4)命题指可分辨真假的语句, 如:“银是白的”.

5)常命题TF解释真,假. PK2-valued logic2值指真和假

6)联结词(非,it is not the case that);∧(且,and);∨(可兼或,or;

(蕴涵,imply),(等价,equivalent

7所有(for all),存在(for some

例:greaterthanx,y)),谓词greaterthanx,y)解释为x大于y,以上句子解释为对所有x存在y使x大于y

is true or  is not true.

自然语言是强大的(powerful),它完全能解释。当然expressive power也非常强,B.Russell指出几乎所有的数学可由表达 。在中由∧或∨联结的项只能有限项,故不能表达阿基米德公理,但将它扩张为(具有无穷∧和无穷∨)后即可。此外,还可加上谓词的谓词,量词的作用域为谓词的高阶量词,这样就构成高阶语言.作为计算是足够的,1980s流行的计算机程序设计语言 Prolog就是基于的。

 

 

§4. 理解自然语言(Understanding of natural languages in

当用解释(或翻译或理解)时,人们既感到的能力,又感到困难,甚至无助,本节主要论述翻译自然语言的不足之处和限制(limitation)。

1                        因为基于二值世界,故只能

2                        To be or not to be之类,对于“x为小自然数”则无法翻译,无法理解什么自然数是小的,“张是秃头”也不可理解。

无时态,但近年以来发展的tense logic已能处理时态。

王勃:落霞与孤鹜齐飞,秋水共长天一色。其中的齐和共翻不出来。

 

3)在处理自然语言的联结词时,无法表达原来的语义。

3.1)在pq等价于qp,但自然语言中未必,屡战屡败和屡败屡战的语义不同。

3.2中的或是可兼或不能用于翻译自然语言中的或,

“鱼和熊掌不可兼得”。设p:得鱼  q:得熊掌,上句为(pq)∧(pq))

3.3)自然语言中有时不出现“若…则”,但语义上却是“若…则”,这时形式语言无法对应,如唇亡齿寒,得寸进尺。

 

4)解释谓词时要注要arity

疱丁文惠(庄子),…为…解…为3元谓词。

 

5)个体在中有时也不可翻,如:天津泥人张,南海康有为,那个发明造纸的人。Russell早就注意到这点,他的解决方案是在中添加descriptor ιιx.(x)=那个唯一的使(x)真的x.

 

6)在中程度的词无法表达, 如必然,可能,大概,多半,几乎.

人们在中加入□和◇表示必然和可能.  1960s又产生了Fuzzy Logic来表达程度.

 

7)自然语言中的量词最难处理,因为在自然语言中出现的量词有时有特定的语义。

7.1)人人尽说江南好(韦庄),这里人人可用表达.

7.2)人说山西好地方,这里人可用表达

7.3All that glitters is not gold.

glitterxgoldx))

7.4)猛虎在深山 百兽震恐(司马迁),这里量词“百”形式语言不可翻

7.5)三人行必有吾师。举一反三,“三”不可翻

7.6)万壑树参天,千山响杜鹃,山中一夜雨,树杪百重泉(王维)

“万”,“千”,“百”不可翻

7.7)一石激起千重浪

7.8)万曲不关心,一曲动情多

以上有许多量词不能由形式语言表达这是在中文中的虚量词。

 

8)形式语言更不能翻译自然语言中的有趣成分,如:回文,谜语等。

巴拿马的广告语:A man, a plan, a canal: Panama

不可能译成其他语言而保留意思和回文的形式。

结论:多半不能理解自然语言。

 

·电脑与翻译

电脑基本上能用。但理解自然语言目前还很差,在翻译方面的智能是7岁儿童,而对于棋类则是棋王。翻译的困难在于:

1)自然语言的歧义性(2)不知道情景(3)不懂语义(4)两种语言的不对应性

当今人工智能+网络+大型语义库的发展必将为机器翻译开创新时代,但永远不可能超越人的翻译。