辞达而已矣
孔子
形式语言与自然语言浅识
宋方敏
2003年5月南京大学101周年校庆
§1. 符号及其逻辑
§2. 一阶谓词演算语言
§3. 的在自然语言中的解释
§4. 以理解自然语言
§1. 符号及其逻辑(Symbolic Logic)
Definition 1.1(Pierce)
某种对某人来说在某一方面或以某种能力代表某一事物的东西,即符号。
Definition 1.2(Longman字典)
Symbol=a sign, shape, or object which represents a person, idea, value, etc.
Definition 1.3(Hjelmslev)
符号=表现(expression)+意义(meaning)
表现与意义为矛盾的对立物,而矛盾的统一即为符号。
语言=符号的系统。
自然语言(人类的),数学(大自然的),音乐(神的)等皆为符号系统。
自然语言表达人的思想与情感,符号逻辑思想与推理的形式语言。
历史回顾
·Aristotle(384322 B.C.)工具论 三段论推理。
·F. Bacon(15611626)新工具。
·R. Descartes(1596-1650)方法谈,论证自我的存在和上帝的存在。
·Leibniz(16461716)Leibniz的理想建立一普适的人工语言,在其中能推理和计算。
·G. Boole(18151864)建立人类思维的代数规律的系统,Boolean algebra。
·G. Frege(18481925)1879出版Begriffsschrift(概念文字),严格建立人类第一个人工的形式语言PK。
·G. Peano(18581932)建立算术的形式语言PA(Peanos Arithmatic)。
·G. Cantor(18451918)建立Set Theory,表达整个数学的形式语言
·B. Russell(18721970)与他老师Whitehead合著Principia Mathematica(3卷),逻辑主义的创始人。
·D. Hilbert(18621943)著作几何基础,数学基础,建立几何和数学的形式语言。
·A. Turing(19131954)发明Turings Machine(计算机的原型),建立Computation的形式语言
·K. Gφdel(1906-1978)PK的完全性定理 PA的不完全性定理
注:在2000年,美国的TIMES请专家和公众评20世纪各门学科的the greatest mind,Turing和Gφdel分别列计算机科学和数学第一人。
§2. The 1st order predicate calculus
一阶谓词演算的语言记为,这是人类第一个人工的形式语言
由以下组成:
(1)个体符号
(1.1)个体变元(individual variables)
(
(
(
(i.e., In BNF,V=v|V′)
(1.2)个体常元(individual constants)
(
(
(
(2)函数符(functions)
(2.1)函数变元f0,f1,f2,
(2.2)函数常元g0,g1,g2,
每个函数f有一个arity(>0)
(3)谓词符(predicates)
(3.1)谓词变元p0,p1,
(3.2)谓词常元q0,q1, 约定等词为二元常谓词
每个谓词p有一个arity(>0)
(4)命题(propositions)
(4.1)命题变元P0,P1,
(4.2)命题常元T,F
(5)联结词(Connectives),∧,∨,,.
(6)量词(quantifiers) ,
(7)辅助符:(,),· ,[ ,],{,}
至此的字母表已构成,下面发展它的语法(syntax)
定义2.1(项,term)
(1)个体为项;
(2)若f为n元函数,t1, ,tn为项,则f(t1, ,tn)为项;
(3)项仅限于此
定义2.2(原子公式,atomic formula)
(1)命题为原子公式;
(2)若p为n元谓词,t1, ,tn为项,则p(t1, ,tn)为公式;
(3)原子公式仅限于此.
定义2.3(公式,formula)
(1)原子公式为公式;
(2)若为公式,则为公式;
(3)若为公式,则∧,∨,,为公式;
(4)若为公式,x为个体变元,则,为公式;
(5)公式仅限于此
若为公式且无自由变元出现,则称为句子(sentence)。
Frege教授在上建立一个逻辑PK。
PK由一组公理(axiom)和一个规则rule构成,若公式在PK中可推出,
则记为|,在符号|中,横画表示命题,竖画表示判断的画符。
公理为反映最基本的被认为永真的公式,如,∨(排中律)
规则为MP:,|(肯定前件推论),
PK是不矛盾(consistent)且完全(complete)。
我们只给出语言的语法(syntax),下节论述它的语义(semantics)。
§3. 在自然语言中的解释(interpretation)
本节论述的成分怎样由自然语言解释,从而给出一种自然语义。
(1)个体指可独立存在的东西,如:长江,1,魂, 等。
(2)函数指从个体到个体的映射(mapping),如:+ .
(3)谓词指个体具有的性质,如:红的,大于等。=解释为等于.
(4)命题指可分辨真假的语句, 如:银是白的.
(5)常命题T,F解释真,假. PK是2-valued logic,2值指真和假
(6)联结词(非,it is not the case that);∧(且,and);∨(可兼或,or);
(蕴涵,imply),(等价,equivalent)
(7)所有(for all),存在(for some)
例:(greaterthan(x,y)),谓词greaterthan(x,y)解释为x大于y,以上句子解释为对所有x存在y使x大于y。
∨(is true or is not true).
自然语言是强大的(powerful),它完全能解释。当然的expressive power也非常强,B.Russell指出几乎所有的数学可由表达 。在中由∧或∨联结的项只能有限项,故不能表达阿基米德公理,但将它扩张为(具有无穷∧和无穷∨)后即可。此外,还可加上谓词的谓词,量词的作用域为谓词的高阶量词,这样就构成高阶语言.作为计算是足够的,1980s流行的计算机程序设计语言 Prolog就是基于的。
§4. 以理解自然语言(Understanding of natural languages in )
当用解释(或翻译或理解)时,人们既感到的能力,又感到困难,甚至无助,本节主要论述翻译自然语言的不足之处和限制(limitation)。
(1) 因为基于二值世界,故只能
(2) To be or not to be之类,对于x为小自然数则无法翻译,无法理解什么自然数是小的,张是秃头也不可理解。
无时态,但近年以来发展的tense logic已能处理时态。
王勃:落霞与孤鹜齐飞,秋水共长天一色。其中的齐和共翻不出来。
(3)在处理自然语言的联结词时,无法表达原来的语义。
(3.1)在中p∧q等价于q∧p,但自然语言中未必,屡战屡败和屡败屡战的语义不同。
(3.2)中的或是可兼或不能用于翻译自然语言中的或,
鱼和熊掌不可兼得。设p:得鱼 q:得熊掌,上句为(p∨q)∧((p∧q))
(3.3)自然语言中有时不出现若 则,但语义上却是若 则,这时形式语言无法对应,如唇亡齿寒,得寸进尺。
(4)解释谓词时要注要arity
疱丁为
(5)个体在中有时也不可翻,如:天津泥人张,南海康有为,那个发明造纸的人。Russell早就注意到这点,他的解决方案是在中添加descriptor ι,ιx.(x)=那个唯一的使(x)真的x.
(6)在中程度的词无法表达, 如必然,可能,大概,多半,几乎.
人们在中加入□和◇表示必然和可能. 1960s又产生了Fuzzy Logic来表达程度.
(7)自然语言中的量词最难处理,因为在自然语言中出现的量词有时有特定的语义。
(7.1)人人尽说江南好(韦庄),这里人人可用表达.
(7.2)人说山西好地方,这里人可用表达
(7.3)All that glitters is not gold.
(glitter(x)gold(x))
(7.4)猛虎在深山 百兽震恐(司马迁),这里量词百形式语言不可翻
(7.5)三人行必有吾师。举一反三,三不可翻
(7.6)万壑树参天,千山响杜鹃,山中一夜雨,树杪百重泉(王维)
万,千,百不可翻
(7.7)一石激起千重浪
(7.8)万曲不关心,一曲动情多
以上有许多量词不能由形式语言表达这是在中文中的虚量词。
(8)形式语言更不能翻译自然语言中的有趣成分,如:回文,谜语等。
巴拿马的广告语:A man, a plan, a canal: Panama
不可能译成其他语言而保留意思和回文的形式。
结论:多半不能理解自然语言。
·电脑与翻译
电脑基本上能用。但理解自然语言目前还很差,在翻译方面的智能是7岁儿童,而对于棋类则是棋王。翻译的困难在于:
(1)自然语言的歧义性(2)不知道情景(3)不懂语义(4)两种语言的不对应性
当今人工智能+网络+大型语义库的发展必将为机器翻译开创新时代,但永远不可能超越人的翻译。