«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告
My blog is about my major : network security.the most papers are talk about it ,I like my major ,i wish you could find what's you need in it.

我的分类(专题)

首页(78)
others(4)
HTML+CSS+JS(2)
汇编(1)
music(0)
art(0)
linux(29)
php(1)
math(0)
network security(1)
idea(0)
企业管理与营销(4)
life(10)
link(0)
软件工程理论(2)
C/C++(14)
algorithm(1)


最新日志
何谓数据结构
陈老师的BLOG
iptables 规则的保存
compatible , enhance
重装windows后,修复Fedora的
著名的SQL注入攻击法 (转)
PE病毒技术剖析[转载]
auto register stat
调节WINDOWS为保护眼睛的颜色!
类似深构造函数的运算符‘=’重载用法

最新回复
直接给他这个时间做什么就行
回复:三国典故集锦
回复:《如何控制自己的时间和生活 》精彩
回复:扫描方法详细
回复:心态决定一切
回复:心态决定一切
回复:男人100
回复:信息熵(定义,性质,热力学熵)
回复:《如何控制自己的时间和生活 》精彩
回复:编写类string的构造函数、拷贝

留言板
签写新留言


统计
blog名称:我的IT人生
日志总数:78
评论数量:185
留言数量:-1
访问次数:528047
建立时间:2006年4月5日

链接




本站首页    管理页面    写新日志    退出

[math]概率=字母?------答思明有关信息熵的评论
zc9706 发表于 2006/4/10 10:05:33

   概率=字母? ——答思明有关信息熵的评论 Philip ZHANG      前些时候,思明对我的文章发表了评论《信息熵到底是用来衡量什么的?—— 看 Philip ZHANG 所犯的科学常识错误》。信息时代应该多学习一些信息学的知 识。感谢思明为我提供了一个机会来进一步说明我对信息熵和中文现代化的一些理 解。不妥之处,望读者指正。    【信息熵的意义】   思明说:平均信息熵“根本就不是文字效率的基本公式,而是在通讯中编码的 码长的效率!提出这公式,商农是用以研究信息编码的。”“以英语为例,信息源 集合大体是 26 个字母加上一个空格,这是基本集合。要传送给任何对方(比如用 莫尔斯电码),码长要几位 0-1?满打满算,是五位。要是用‘平均信息的观 点’来研究处理,会发现:有些字母出现得经常,另外一些比较不经常用,所以信 息源是有点特徵的,这特徵就是信息含量不‘饱满’。通俗地说,如果英文字母中 只有一部份常用,其他罕用,通过巧妙编码可以把码长缩为4个多一点点。实际上 由于目前通讯瓶颈已经不像半世纪以前那样重要,电脑里的正规编码方案全是冗余 方案,并无人真正采用紧缩方案,连考虑的价值也没有。”   思明把平均信息熵的依据跟字符常用量联系起来,说明作者也许还不知道什么 是平均信息熵。字符常用量是经验统计的原始数据或实用数据,是相对的,是因人 因时而异的;而文字的平均信息熵是根据符号概率和容量极限定律计算而得到的数 值,除非整个文字系统发生重大变化,熵值是非常稳定的,不是因人因时而异的。 同时,两者的计算公式完全不一样,字符常用量计算的关键因素是字符的使用度, 而平均信息熵计算的关键是字符的概率。在取样的时候,常用字计算需要抽样分类 (例如历史哲学和物理化学分类)以及各类抽样量分布均匀,而信息熵计算抽样的 根据是极限容量,并不是学科分类,自然就跟各类抽样量分布均匀与否无关。   请看 IBM 公司引用国际标准化组织对平均信息熵的概括解释:   “(国际标准化组织)在信息论中,对被传递信息进行度量的一种平均值,所 传送的信息是因为任何有限数目的互斥和联合完备事件以一定的概率出现。用数表 示,一组事件 X(1),… X(n)以既定概率 P(x1),… P(x)出现的这种平 均值等于每个事件的信息量 i(Xn)的数学期望,或平均值。即:   H(x)=SUM P(Xi)I(Xi)         (i=1)”   对文字来说,“一组事件”指的是 MESSAGE(信件,信息)。   再请看对字符平均信息熵的概括解释:   “(国际标准化组织)在信息论中,从固定信息源来的所有可能的信息平均信 息量,即每个字符的平均值。以数学式表示,假定 H(m)是来自信息源的所有有 序的 m 个字符的平均信息量,则每个字符的平均值 H’为:   H’=LIM(Hm/m)   这样每个字符的平均值可以用‘闪农/字符’为单位来表示。”  (说明:闪农,SHANNON,有的翻译为申农,作者用的是商农。我觉得用申农或 闪农更好,本文暂且用闪农。)   著名数学家 NORBERT WIENER 说:“Just as the amount of information in a system is a measure of its degree of organization, so the entropy of a system is a measure of its degree of disorganization.”  (直译:正如一个系统的信息量是它的组织程度的度量一样,一个系统的信息熵 是它的无组织程度的度量。”)   《辞海》对信息熵的定义是:“信息论中的一个基本量。例如,在试验甲和乙 中,两种结果 A 和 B 出现的概率如下:   出现 A 的概率 出现 B 的概率 试验甲 0.50 0.50 试验乙 0.99 0.01 “那么,在试验之前,就试验甲而言,很难断定 A 和 B 中那个可能将出现;但就 试验乙而言,就很有把握地断定 A 将出现。由此可见,在不同的试验中,其不肯 定性是有大有小的,试验甲的不肯定性就比试验乙的来得大。熵就是描写不肯定性 大小的量,熵越大不肯定性就越大。一般地说,设在试验中有 N 个可能出现的结 果,A(1),A(2),… A(N),假如它们出现的概率分别是 P(1),P(2), … P(N),通常规定这个试验的熵为:   H=P(1)LG P(1)-P(2)LG P(2)… -P(N)LG P(N)。”   最好的说明还是用信息熵创始人闪农最喜欢用的猜谜方法。有一个句子: 我们都喜__使__计__机来处__数__。   不用费很大力气,我们可以确切地说出完整的句子: 我们都喜欢使用计算机来处理数据。   然而,如果句子是: 我__都____使__计____来______据。   就很难确切地说出完整的句子。   有时候,闪农也用读书猜谜的办法。例如,他随意拿起一本书,随便翻到一页 开始阅读,或者阅读片段、或者只读一些词语,让听众猜测全句、全段、全页、或 全章的完整意思。   闪农指出:那些不必写出或读出就能知道确切意思的字符不运载信息,那些必 须出现、否则就不能猜出确切意思的字符运载信息;不运载信息的字符是多余字 符,因而字符系统有多余度的存在;为了精确,字符作业的时候必须保持合理的多 余度。在考察和计算的时候,需要确定信息源所有字符中的每一个字符的出现概率 以及它们的总合(-P log(P))。这个考察计算的数量叫作“信息自由度” (Informational degree of freedom),闪农起名叫作“熵”(Entropy),为的 是纪念 Boltzmann,原因是闪农自己提出的数学式(H=K log(P))跟 Boltzmann 提出的计算热力熵数学式(S=k log(W),其中 S 代表熵)的表达方 式一样。   不管是信息熵发明人闪农的阐述、或是中外有关资料的阐述,都很清楚地说 明,字符平均信息熵不是作者说的衡量编码长度或字母常用量,信息源的依据也不 是作者用英文例子说的“信息源集合大体是 26 个字母加上一个空格”。在计算信 息熵和为字符编码的时候,要考虑固定信息源的所有字符的概率,而不是作者说的 “如果英文字母中只有一部份常用,其他罕用,通过巧妙编码可以把码长缩为 4 个多一点点。”下面有两个例子: zhongguo ren shi yazhou ren Chinese are asians 意思是“中国人是亚洲人”,第一个例子是汉语拼音(因投稿要用纯文本,不能用 其他符号或图形,因而未标音调),第二个例子是英文。请思明用自己说的“巧妙 编码方法”为它们编码,说明计算的根据和步骤,用实例证实自己的说法是正确的 和带有普遍性。   在计算机信息产业实用工程中,平均信息熵作为静态信息熵使用,对硬件和软 件的设计有极其重要的意义。例如,所有中文计算机软件的设计,都要考虑如何处 理双字节,基本原因就是汉字的平均信息熵大小决定汉字处理需要双字节,而不是 常用字数量。目前,网络通讯广泛使用的文件压缩技术(例如 ZIP 文件方式)的 根据是信息熵。美国宇航局使用的传递火星勘探资料的技术依据,也是信息熵。现 在,将计算机网络、电视和其它媒介结合是信息产业的一个发展趋势,基本技术依 据之一还是信息熵。1998 年是信息熵学说发表五十周年。为此,美国等国家的一 些信息产业和研究部门搞了纪念活动和发表了纪念文章。他们一致认为,从 1948 年闪农发表信息熵理论到现在,信息学为世界带来了革命性的变化,在许多方面达 到了闪农所预期的理想通讯系统(ideal communication system)的水平。然而, 信息学研究和实用工程的发展远远没有到头,还有许多课题和困难需要解决。可 见,作者说信息熵“连考虑的价值也没有”,既不符合事实,也没有道理。    【关于信息熵的计算】   思明说:“那么怎样计算信息量又是怎么回事呢?以电脑的 0-1 编码方法为 例,如果‘0’和‘1’以均等机会出现,P 就是 1/2,对数就是 -1,H 就是 1。 因此它的信息含量就是 1 个比特(bit)。如果出现得不均匀(比如说基本是 ‘0’出现,偶尔才有‘1’出现),那么‘0’的 P 值接近于 1,其对数自然接近 于 0;另外的‘1’的 P 值接近于 0,对数就接近于负无穷,经过加权平均, (这种无穷乘以 0 的极限,自然可以用(数学上的计算)方法求出)信息比 1 个 比特(bit)更小。”   作者对信息熵计算的叙述有许多漏洞和曲解。   首先,尽管计算机机器语言和信息熵的单位都用二进制(比特是二进制,0 是 一个比特,1 是一个比特),但是,它们的概念是不同的。计算机的电路只有关和 开,只能用二进制的 0 和 1 来表示。信息熵也用比特二进制作单位,是因为计算 公式使用的对数是以 2 为底,跟用不用计算机无关,跟作者说的“电脑的 0-1编 码方法”的 0 和 1 更没有关系。   此外,在信息熵的基本公式 H=K LOG(P)当中,P 的数值是信息源所有字符 的概率。例如,对 ABABABBABCB 来说,P 的数值是 A,B 和 C 三个字符的概率, 尽管C 只出现一次、跟其它字母比较不是常用的,也必须包括在计算之内;对中文 的“我的你的他的”来说,P 的数值是“我”、“你”、“他”和“的”四个字符 的概率。这些字符的概率计算不是用思明说的“电脑的 0-1 编码方法”来计算、 也不是用比特或字母作单位。   如果作者了解信息熵的基本意义和计算机网络的基本原理,就会知道,信息熵 计算首先要研究的是信息源的字符概率(还有其它研究),而编码长度是信息熵计 算结果的应用之一,例如,在闪农的通讯数学模型里,是第二部分的编码问题 (encoding),其计算跟字符平均信息熵有关,但不一样。实际上,在闪农的模型 里,所有部分都跟平均信息熵有关,同时各个部分都有自己的一套数学模型。   举例说,英文的平均信息熵是 4.03 比特,因此,做计算机硬件和软件设计的 时候,英文字符编码的长度要用五个比特,但却可以使用更长的编码,例如,在 ASCII 中,英文字符编码的长度是七个比特(不是作者说的八个比特),用一个比 特做奇偶检验,合起来为八个比特,等于一个字节。不论用五个比特还是用七个比 特长的编码,英文的平均信息熵总是 4.03 比特。这种方法的依据是静态信息熵 (H(0),零序信息熵),即不考虑字符前后的联系意义。按照作者的计算方法, 例如“电脑的 0-1 编码方法”、0 和 1 的机会均匀与否和加权平均,如何得出 英文平均信息熵是 4.03 比特?作者的叙述的计算方法的结论是“信息比 1 个比 特更小。”这个计算的根据、步骤和结果是什么?   至于思明提到的加权计算,闪农用来考察多余度,所得结果是百分比(用信息 学界的话来说,这种计算用来考察字符是“honest”或是“dishonest”),不是 作者说的根据电脑编码的 0 和 1 是否均匀分布计算出来的 P 值,所用的也不是 作者说的“信息比 1 个比特更小”的比特单位。   思明还没有弄明白这些基本道理就发表评论,结果对信息熵的基本计算公式做 出了完全错误和荒谬的推导。例如: 【思明的信息熵计算推导:概率=字母】   思明说:“大家知道,英文字母平均信息熵是 4.03 比特,说明它有一点‘浪 费’(因为 2 的 4 次方是 16,这只相当于均匀使用了 16个字母)。如果英文的 ‘平均信息量’少到 1 或者 2,就相当于只有两个或者四个字母了。所以张先生 的瞎表扬英文可真的一点意义没有。”   作者的推导是反函数,把 H(0)=k Lg(P)对数函数推导为指数函数 P= 2^H(0),并且把 P 值作为英文字母容量,即 2 的 H(0)次乘方,其中 H(0) 表示作者说的“平均信息量”。根据这个方法,作者有个说法:   2^4=16 作者说是“因为 2 的 4 次方是 16,这只相当于均匀使用了 16 个字母”。同理 还有:   2^1=2 和 2^2=4 作者说是“如果英文的‘平均信息量’少到 1 或者 2,就相当于只有两个或者四 个字母了。”   如此,汉字的平均信息熵是 9.65比特,用思明的算法,就有:   汉字数目=2^H(0)=2^9.65=805个汉字。   按照思明的推导来计算,得出汉字字符有八百零五个汉字的结论。这对头吗? 语文基础教育的要求就已经超过了这个数字,更不要说汉字的总量了。   思明推导的反函数计算所导致的结果是已经计算过的字符概率,而不是字母 (字符)的容量,更不是字母的均匀分布。根据字符平均信息熵来验算字符容量, 所用方法不是思明的反函数方法,而是用齐普夫定律。根据这个定律,对汉字平均 信息熵 9.65 比特来说,汉字的字符极限容量是 12370 个汉字左右。换句话说, 汉字字符数量的增加超过 12370 个以后,对汉字平均信息熵的增加不再有显著意 义。这个验算结果基本符合汉字发展的历史事实。据国学研究,汉唐时期,汉字字 符已经超过 12000 多个。从信息学角度看,汉字系统早在汉唐时期就达到了相当 高的精确度,以后的汉字增加使精确度得到了更大的提高,充分反映了中国古代文 化发展的成就。如果按照思明的方法来计算,那么,汉字字符极限容量只有八百多 个汉字,还不到甲骨文的水平,而且精确度非常底,根本不符合中国文化发展的实 际情况。   显然,思明的推导完全错了,因而会导致非常荒谬的计算结论。原因:思明根 本不理解信息学基本原理,也不理解信息熵基本公式中各个因素的基本意义和方 法,混淆了信息熵单位、字符概率和字母(字符)数量的基本概念。   思明还说:“除了整个‘民族’的平均信息熵以外,人人的语言都有其独特的 信息熵。比如‘不高兴’先生,碰到事情一般都是不高兴;总说‘喳’的太监,他 们的语言中的平均信息熵都很小。同样的字符集而熵小,这绝对不是什么先进,是 贫乏。”   思明的这段话进一步说明他完全不了信息熵及其计算是怎么回事。一种语言文 字的字符平均信息熵并不取决于“民族”因素或一个人怎么说话。不管莎士比亚说 话、还是海明威说话,英文的字符平均信息熵总是一样的。同样道理,不管谁说中 文和怎么说中文,汉字的平均信息熵也是一样的。更是同样道理,不管美国人怎么 说中文或是中国人怎么说英文,两种语言文字的字符平均信息熵还是它们自己,并 不因为使用者的民族的不同而变化。   根据所谓“民族的平均信息熵”,思明说:“张先生因为基本没有理解什么叫 平均信息熵,还有许多笑话。”请作者好好看看平均信息熵的基本公式,有哪个地 方是“民族的平均信息熵”?度量是什么?究竟是谁在闹笑话?思明说我“对于数 学绝缘”。对思明推导的概率=字母和“民族的平均信息熵”那一类所谓的“数 学”,我不但是绝缘,而且要坚持绝缘。    【关于汉字信息熵和效率】   思明说:“张先生又说:中文的平均信息熵是 9.65 比特,在计算机信息作业 的时候,汉字的每个字符需要两个字节的空间,因而中文的信息处理和传递的整体 效率比英文等拼音文字的效率要低得多。这是完全违背基本常识的。”   文字的效率包括许多方面,例如习得率(语言文字学中的文字学习度量)、阅 读歧义如何、书写和传递是否方便,等等,信息熵是其中一个方面;在应用计算机 等现代工具做信息处理和传递的时候,信息熵则是关键方面之一。   五十年代,信息学介绍到中国,中国科学家开始了汉字信息熵的理论和实用研 究,参加单位包括中国科学院、教育研究机构和政府有关部门。到七十年代末,有 关研究基本完成,结论是:汉字平均信息熵大,说明汉字的信息量大,对中文信息 管理和传递来说是不利因素。八十年代中期,有关研究发展到新水平,克服不利因 素的基本方案有了雏形。中国科学家的研究成果得到了国际科学界的普遍承认,其 中有些成果已经成为国际标准,为信息产业界广泛采用。请问思明:难道中国科学 家三十年左右的研究结果是“完全违背基本常识的”吗?   中国科学家的研究证明,汉字字符需要两个字节(双字节)。在国际上,对中 国有关研究成果最先感兴趣和表示支持的是美国的 IBM 公司等信息产业机构。他 们很早就支持使用双字节的 UNICODE 成为国际标准(有的还成了发起人之一)。 他们知道,双字节的 UNICODE 不是灵丹妙药,因而拨出大量资金开展有关解决双 字节困难的技术研究项目,至今还在继续。请问思明:难道 IBM 公司等机构也是 “完全违背基本常识的”吗?   关于使用双字节和 UNICODE,著名的微软公司在美国的说法是:   “The multiple byte nature of this mechanism (UNICODE 和双字节编 码)makes it very difficult to use because getting a particular character from the string requeires testing each value in the string to see if it is a lead byte.”(MICROSOFT VB/C,INTERNATIONAL ISSUES)   直译:“从(双字节)字符串中得到一个特定字符,需要对字符串中的每一个 数值检验,以此来确定该字符是不是前引字符,因而,使用(UNICODE 和双字节) 结构方法是非常困难的。”   而在中国,微软公司却把使用 UNICODE 和双字节作为他的发明,说他的软件 使用双字节和 UNICODE 是“中文信息处理的重大突破”和“从来没有如此容 易”。显然,微软公司在两个地方说了不同的话,甚至把中国科学家的发明归为自 己的发明。既然思明那么了解信息熵的“基本常识”,那么,请问思明:微软公司 说的两套话里,哪个是真话,哪个是假话?判断的理由是什么?   为了说明信息熵对信息管理和传递过程中的字符效率没有意义,思明说:“我 们的汉字真会这么落后?比如‘我’是两个比特(思明在这里要说的是字节而不是 比特),‘I’是一个。这就是中文不如英文的‘唯一例子’了。但是‘人、是、 起、而、日、月、用、无、……’这几百成千个单字(严格说所有汉字)英文里都 只要一个字母吗?不是。英文的字母只有 26 个,充其量只能有这 26 个比中文好 ——可惜英文的单字母词只有一个‘I’,一个‘a’(意义太简单,还无独立使用 权)其他的(例如 of,on,to,we,me,go,……)能和汉字打平就好。请注 意,在用 26 个字母构成的 676 种二字母组合中,有意义的少之又少(比如 aa, ab,ac,ad,ae,……就几乎全无意义)。所以,如果有人用汉字对比英文(在同 样意义的词汇)的 byte 数,十有八九汉字要‘节约’得多!”   我的文章讨论的是汉字字符信息熵和拼音文字字符信息熵,从来没有做汉字和 拼音字母的比较,更没有说汉字是否落后。字符和字符信息熵密切相关,但却属于 不同的范畴和概念。对思明从信息熵引申而所做的汉字和拼音字母的比较,我想用 中国有关科研部门和专家早已说过的话来说明其谬误:   “汉字的熵值大,……必然要影响到通讯的效率。在这个意义上说,汉字的熵 值大对于中文信道编码是不利的。……汉字的熵值大,也给它在计算机上的输出和 输入带来很大的困难,尽管现在汉字在计算机上的输入和输入已经不成问题,但 是,汉字输出和输入的效率比之于拼音字母的输出输入效率要差得多。从这个意义 上说,汉字的熵值大对于中文信息处理是不利的。   “应该说明的是,我们所说的‘汉字中所包含的信息量大’,是完全从信息论 的角度来说的,我们不希望对这个信息论上的科学结论望文生义地随便加以引申, 比如用‘汉字中所包含的信息量大’这个结论来证明‘汉字优越’等等。对科学结 论的随意引申,常常会导致谬误。这样的事情在科学是上屡见不鲜,我们应该引以 为教训。   “另外,我们在上文中只是把汉字的熵同拼音文字的字母的信息熵做了类比。 事实上,作为语言中负荷信息的单位而言,汉字这个单位显然比拼音文字中的字母 这样的单位大得多。用单位大小不同的两种东西来比较‘优劣’,其结果毫无意 义,有人经常在这个问题上出毛病。”(《文改之声》,93/10)   十年前左右,鼓吹“汉字优越”论的人的基本说法之一就是“汉字信息量大, 比拼音文字优越”,所用基本方法就是把汉字和拼音文字字母比较。例如,他们 说,汉字最简短,在联合国的文件中,中文的文件本子最薄。对此,中国语言文字 学的学者指出:  (一)汉字的书写是方块组合,拼音文字的书写是线性组合,把两种不同的组合 比较,对语言文字学来说,毫无意义。  (二)如果用方块组合方式书写拼音字母,那么,汉字就不一定是最简短的 了。比如: Nice to meet you (英文:四字,二十六画) 认识您很高兴   (中文:六字,四十七画)  (说明:其中英文用韩文的字母方块组合书写成单字方式。因为投稿要求纯文 本,不能加进图形,所以只好还按照线性组合列出)。   如果用线性组合书写汉字,如上例中“认识您很高兴”,要连续排列十多个笔 画部首,比英文书写占用的空间多,汉字方式不是最简短的。如此,能说英文字母 比汉字更优越吗?  (三)在使用计算机输入汉字字符的时候,不管用笔画方法还是用拼音方法,都 是按照线性组合方式操作的,而且,在输入和输出的过程中,还各有至少两次编码 和字符的对应转换,一共至少要四次转换。而拼音文字输入输出各用一次对应转 换。就字符储存来说,拼音文字只要几十个字符、每个字符只需要一个字节,就可 以处理所有的词汇了(包括新词汇);汉字则需要二万多个字符(现用国家标 准)、每个字符需要两个字节,如果所有的汉字都包括在内,则需要将近六万个字 符和十几万个字节,同时,每增加一个新字(例如化学名称),就需要增加一个字 符和两个字节的预存。如此,能说拼音文字比汉字更简短和更优越吗?  (四)结论:显然,把不同组合和不同单位的两种东西来比较“优劣”,例如将 汉字和拼音文字字母比较,是毫无意义的事情。   有上述说明以后,“汉字优越”论的立论基础垮了,不得不借用极端民族主义 来支撑。多年后,思明又重操“汉字优越”论的汉字和拼音文字字母比较的方法, 甚至提出了违背信息学基本原理的“民族的平均信息熵”的提法。思明的言论很好 地证明了科学家们的预见:“对科学结论的随意引申,常常会导致谬误。……用单 位大小不同的两种东西来比较‘优劣’,其结果毫无意义,有人经常在这个问题上 出毛病。”   思明说:“附带说一句,张先生犯的这个低级错误,国内某一派的‘著名语言 学家’在十多年前已经犯过,也被人尖刻批评过。他们既无法理解(大概和张先生 一样对于数学绝缘)也不吱声,以至于十年过去后,他们的文改信徒还不断重复这 错误。可悲又可叹,若把语言文字工作交给这等‘既不内行又不热心’的人!”   作者说的十多年前的“尖刻批评”,除了“汉字优越”论的鼓吹者,我还没有 发现其他人对中国文字改革近百年的成就提出过“尖刻批评”。至于作者所谓的 “对于数学绝缘”和犯有“低级错误”的“国内某一派的‘著名语言学家’”,其 中不但有计算语言文字学专家和数学家,而且,他们的研究成果得到了中国和国际 信息科学界的承认和信息产业界的采用,有些成果还成了中国国家标准和世界通用 的国际标准。相反,那些提出“尖刻批评”的人,除了借助混淆信息学基本概念 (例如把汉字跟拼音文字字母比较)和利用民族因素来到处寻找“尖刻批评”的机 会以外,没有任何作为。    【关于“汉字优越”论】   思明说:“中文的平均信息熵是 9.65 比特,于是,‘汉字是落后的,无论是 简体还是繁体’就成了他轻松得到的结论。”   这是篡改。我的文章从来没有说“汉字是落后的”。我的文章说的是无论是采 用简体还是繁体,汉字的平均信息熵并没有改变,中文信息作业的效率也没有因为 字体的改变而得到根本改善,因而,从信息学角度看,两种汉字字体的争论没有多 大意义。   思明还说:“‘从一九八九年开始,《人民日报》等报刊就用同样的手法抨击 中文改革,连续发表文章鼓吹‘汉字优越’,说中文改革是盲目西化和导致中国文 化传统消亡,等等。’真是做得对极了,好极了!”   看来,思明表示了坚决支持“汉字优越”论,却又不知道“汉字优越”论到底 是怎么回事。请允许我做些简单介绍,也请思明看看自己是否在盲从。   “汉字优越”论是八十年代末期海外人士袁晓圆和安子介提出的。袁晓圆:原 联合国中文翻译,退休前坚决支持中文文字改革,退休后开始反对中文文字改革; 安子介:香港的纺织业商人。在过去的海外统战工作中,两位人士有所贡献,因而 跟大陆政界发展了各种关系。以此为基础,袁晓圆和安子介利用各种渠道在国内开 办杂志和召开讨论会,在北京找到徐德江作杂志代理人,对中国的文字改革的成就 和政策公开挑战,把一百年左右的中文现代化历史全部否定,甚至对在国内外享有 盛誉的中国科学家老前辈搞诽谤攻击。   他们的基本言论是:汉字信息量大,因而汉字比拼音文字优越;汉字是魔方, 有特异功能,能使学习汉字的人有更高的智商,例如日本人和法国人,学习汉字后 智商比没有学习汉字的人智商高;搞现代汉语拼音方案和向拼音文字方法学习是 “全盘西化”,是消灭汉字,保护方块汉字就是保护中国文化;文字改革是左倾路 线的产物;汉字最简短,在联合国的文件中,中文文件本子最薄;汉字是世界第五 大发明;汉字能见形知义,不需要声音转换就能知道意思;汉字是国际文字,没有 学过汉语的人看了也能懂;数字符号世界通用,是写意的,汉字也是写意文字,是 国际文字(按:例如“不 3 不 4”和“不三不四”,按照“汉字优越”论的说 法,是等同文字,不用学汉语,能见形知义地一看就懂),等等。   早期提出“汉字优越”论的还有曾性初,他的代表作是《汉字好学好用证》, 基本说法是:美国宾夕法尼亚大学心理学教授 Paul Rozin 做了惊人的试验,有严 重阅读障碍和连简单的英文音节也不会的美国儿童,却能学会三十个汉字和这些汉 字组成的句子。   在“汉字优越”论的基础上,袁晓园和安子介等人提出了自己的一套语文教育 制度和方法,试图取代中国的制度和方法。他们的基本主张是:用 108 个字形拼 音字母代替现代汉语拼音方案,把现有汉字全部改成他们设计的拼音汉字;用六位 号码(四角号码的变形)输入法代替所有的中文计算机输入法。通过政治关系打通 渠道,他们在北京的一所学校开办了试验教学。结果,学生的语文学习成绩和语言 文字能力大幅度下降。为此,孩子们的家长非常不满意,有关工作人员也纷纷提出 了抗议,有些人甚至给国务院高级领导写信,询问为什么要搞这类误人子弟的语文 教学。   “汉字优越”论鼓吹者的作为说明,他们的真实目的并不是保护中国文化,而 是企图用他们的文字方式来取代现有的中文语言文字标准和规范,包括取消全部汉 字和取消现代汉语拼音方案。同时,他们企图用“汉字优越”论做宣传来推销自己 的中文输入法,以此从中国市场获得商业利润。可见,要消灭汉字的不是从事文字 改革的科学家们,而恰恰是“汉字优越”论的鼓吹者。例如,“汉字优越”论发起 者之一袁晓园,一方面说搞汉语拼音是向拼音文字学习的盲目西化,一方面却又兜 售自己的拼音文字方案;一方面说“汉字优越”,一方面为了推销自己的拼音汉字 而把现有汉字称作“繁难”的文字,汉字又不优越了。出尔反尔,自己打自己的嘴 巴,一切为自己的既得利益服务,这就是“汉字优越”论。   当时,中国正在搞爱国主义教育,《人民日报》不明真相,误以为“汉字优 越”论是海外人士的爱国主义和宏扬中国文化的表现,而且又有关系和来头的考 虑,便多次发表了他们的东西,甚至把毫无科学界公认成就的徐德江作为语言文字 学的年轻一代的英雄来宣传,而把已经受到国内外科学界多年承认的中国学者和专 家放在一边。   结果,全国刮起了一阵“汉字优越”论的风潮,出现了一系列违反国家语言文 字标准规范的现象,有关科学研究、文化教育事业和语言文字政策的执行,都受到 了很大的破坏性冲击。对此,全国各地的科学界、教育界和新闻出版界的一百四十 八位学者和工作者联名强烈呼吁停止“汉字优越”论的误导宣传,并且从语言文字 学和信息学的各个角度说明了“汉字优越”论的荒谬与危害。参加呼吁的学者包括 世界著名的中文语言文字学专家和其他工作者,例如:吕叔湘、张志公、周有光、 刘涌泉、王均、苏培成、林炎志和王开扬,等等。   于是,“汉字优越”论的鼓吹者们把海外作阵地,以美国和香港为主,通过所 谓“国际交流”和“国际舆论”来向国内施压。例如,为了说明这个交流和舆论有 多么广泛,他们的代理人请了十九岁的美国青年充当“年龄最大的儿童”到北京访 问和参加儿童学习中文的活动,让这位美国青年以美国“儿童”的身份说明中国的 汉字有多么优越和鼓吹“汉字优越”论就是爱国主义。为了表明这个活动有多么 “爱国”,有关宣传报导的规模甚至超过了对香港回归的宣传报导。在科学技术上 站不住脚了,就在民族主义上大作文章,甚至不惜出钱作弊。这就是“汉字优越” 论鼓吹者的言行方式和真实面目。   “汉字优越”论传到美国后,美国有关研究教育机构的专家马上公开发表评 论,义正词严地提出了尖锐批评。   美国夏威夷大学学者范德克(J. Defrancis)发表文章说:中国有些“高层的 政策制定者缺乏独立解决语言政策方面的矛盾所不可少的知识(可以理解),似乎 还是被传统派以爱国学者的姿态进行的伪科学的胡言乱语所蒙蔽,他们只听的进传 统派的声音。而改革派,包括在中国语文界最能干的学者,也没有能说服政策决策 人,让他们理解:正是他们不相信语言现代化是国家现代化的一个重要组成部份, 他们正在阻碍实现自己的目标:中国的现代化。”   有些美国专家还特别公开声明,“汉字优越”论对他们的材料的用法和说法是 篡改和歪曲、所谓海外“交流”跟他们没有任何关系。美国宾夕法尼亚大学的学者 们指出:“Paul Rozin 教授听说中国有人用他的试验在中国知名度很高的报刊杂 志上发表文章来判断汉字是一种优秀文字的时候,不禁倒抽了一口冷气,大大地吃 惊。” Rozin 教授本人特地写信对中国有关部门说:他的试验目的是帮助一小部 份美国儿童克服幼年学习困难,用一种不需要进行音素分析的文字(如图形文字或 汉字)作为过渡。他说:“我们并不由此得出结论,认为汉字这种词字文字比英文 更优越,即使当作一种过渡文字,也不主张把这种文字去教给所有的儿童。”   以后,《人民日报》等报刊逐渐停止了“汉字优越”论的误导宣传,“汉字优 越”论的语文教育制度方法遭到了完全否定,鼓吹者们编写的有关教材也不得不使 用规范汉字和现代汉语拼音方案,他们的中文输入法也被清扫出门。   然而,“汉字优越”论的影响并没有完全消失,消除该论误导的努力也没有停 止。今年春天,中国驻南斯拉夫大使馆被炸以后,北京政界一些高级人士提出汉字 才能体现中国文化传统的立论,在这个立论的基础上,他们进一步提出了用“汉字 文化”作为民族凝聚力来领导全国人民和在国际上建立“大中华”的对内对外政策 的主张。对此,中国主席江泽民明确提出,民族凝聚力和对内对外政策的基础是中 国的经济、科学技术、国防和整个国力的发展强大,是中国的“文艺复兴”。哪个 政见主张更合理?我想,作为国家首脑,江泽民心里很清楚:  (一)就国内政策来说,用“汉字文化”作为民族凝聚力,很可能导致民族歧视 和民族分裂。长期以来,美国一些政界人士说,中国政府在同化少数民族文化,例 如用汉字来取代少数民族的文字。如果中国政府用“汉字文化”作为国内政策的基 石,那么,就很可能证明那些美国人士的说法是正确的。况且,中国历史有过多次 分久必合、合久必分,搞诸侯和军阀割据的人都使用汉字;文化大革命中的绝大多 数大字报也都是用汉字写的。可见,“汉字文化”并不一定能保证中国的统一团结 和社会稳定。为此,对基于“汉字文化”的国内政策来说,江泽民必须慎之又慎, 是有道理的。  (二)就对外政策来说,“汉字优越”并不能保障香港主权不会落在英帝国的手 里;在代表中国收复香港的时候,在背后支持江泽民的力量不是“汉字优越”。在 所谓“大中华”区域,人们对中国的关心不是汉字是否优越。韩国开禁和允许学习 使用汉字,跟中国二十多年前开禁和允许学习使用英文一样,纯属本国利益的需 要,根本不是一些人说的韩国在加入中国儒家传统的行列,否则,二十多年前中国 开禁和允许学习使用英文的时候就已经加入了西方传统了。再说,北约轰炸中国驻 南使馆的时候,汉字再优越,也不能帮助中国阻止导弹的袭击。从历史和现实考 虑,江泽民心里很明白,他不能采用当年的义和团的方法,要中国人民用所谓的 “刀枪不入”的“国粹”去跟西方现代化的实力抗衡。   江泽民酷爱古代诗词和书法艺术,鼓励大家学习古代诗词,赞赏书法家们的成 就。然而,那毕竟是个人爱好。在领导国家的时候,面对大使馆被炸后的国内外的 巨大压力,他没有采用貌似爱国主义的“汉字文化”或“汉字优越”的主张,而是 明确地站在历史和现实的立场来考虑国内外政策。在这个问题上,江泽民保持了国 家领导人必须具有的清醒头脑。   看来,因为“汉字优越”论,汉字和文字改革问题已经超出了纯粹语言文字学 的范围,成了中国改革开放如何继续下去的不同重大决策的一个敏感反映。   希望以上介绍能帮助思明了解“汉字优越”论的来龙去脉。   关于汉语或汉字是否“优劣”,思明的方法没有超出袁晓圆、安子介和徐德江 在十年前就使用过的方法。十年前的“汉字优越”论没有说服我,思明现在的评论 没有超出“汉字优越”论,自然也不能说服我。如果有兴趣,思明不妨参阅他们的 文章,再看看中国科学界和美国科学界的有关论文,就知道自己错在什么地方了。 当然,如果思明相信“汉字优越”论是“做得对极了,好极了”,那么,作者也不 妨拜袁晓圆、安子介和徐德江为师,甚至加入他们的队伍,把他们奄奄一息的“汉 字优越”论继续下去,甚至可以试图按照他们的主张来取消汉字和现代汉语拼音方 案。如果对政治感兴趣,那么,思明也可以到北京去支持用“汉字文化”作国内外 政策基石的主张,如此,思明一定会受到一些政界高级人士的热烈欢迎。如果自己 不准备实践“汉字优越”论的那些主张,那么,思明说“汉字优越”论是“做得对 极了,好极了”,还有什么意义呢?    【关于中文文字改革】   思明说:“张先生在信息科学上的一点道听途说的知识是多么脆弱,多么不精 确!用这样的东西作为‘证据’,要我们信改革有几千年历史的汉字很是必要,太 不负责,太浅薄、太无聊!”   作者说的这番话,对我没有多大关系。我的文章不过表示了我对中文文字改革 和中文现代化的事业的支持,或者说,我不过是这个事业的成千上万个支持者之 一,而不是发动指挥者。   中文改革和中文现代化事业的开始,可以追述到清朝末期。在后来的新文化运 动中,文字书写开始采用白话文、分句和拼音文字的标点符号方法。到了本世纪二 十年代和三十年代,科学界、文学界和教育界提出了国语罗马字和拉丁化新文字运 动,得到了政府的大力支持。随后,科学家和文学家又进一步提出了“双文制”的 主张。在那前后,钱玄同、巴金、赵元任、曹禺、郭沫若、老舍、戴望舒、吴玉 章、蔡元培、茅盾、鲁迅、林语堂、倪海曙、周有光、王均、吕叔湘,还有胡适、 陈独秀、陈望道、胡愈之、黎锦晖、林伯渠等等数不胜数的许多世界著名的中国文 学家、学者和政治家,都是中文改革的坚决支持者和实践者,对中文现代化作出了 卓越的贡献。他们中间许多人的作品在历史上之所以有地位,跟历代作品一样,是 因为集中记录和反映了语言文字的变化和时代特点。   1958 年,现代汉语拼音方案问世,解决了汉唐以后两千年没有解决的中文语 音字符的问题,在向拼音文字学习方面跨出了重要的一步,是中文发展历史上的一 件大事。多年来,现代汉语拼音方案不但是中国的国家标准方案,而且是联合国等 国际组织处理中文文件的标准方案,同时,美国政府、美国国会图书馆和许多科研 教育机构,也已经或逐渐开始把现代汉语拼音方案作为管理中文文献的标准方案。 从现代汉语拼音方案问世到现在,该方案一直是中国语文教学的基本内容之一。目 前,现代汉语拼音方法和规则也是使用计算机作中文信息处理的重要标准和方法之 一,应用得越来越广泛。   一百多年来,中文发生了巨大变化,中文文字改革的成就是有目共瞩的。在这 个过程中,不断有些人把传统汉字方法称作“国粹”,试图利用民族主义和爱国不 爱国作政治武器来阻止文字改革的历史进程。他们喧嚣一时,却总不能阻挡中文现 代化(中国现代化的一部分)的前进步伐。这个事业并没有完成,许多科学家还在 继续辛苦努力。   在这一百多年里,晚清政府、国民党政府和共产党政府的政见非常不同,他们 之间甚至还有过你死我活的斗争,然而,他们对中文文字改革和中文现代化的事业 的支持却是一致的,有关政策也是基本延续一贯的。最近,台湾决定开始采用大陆 颁布的现代汉语拼音的方法和规则,某些方面做得甚至更坚决,例如要求社会从所 有的路标开始,逐步实行双文制。大陆却还没有这样做。这是一个很有趣的历史现 象。从五十年代到九十年代初期,台湾一直把现代汉语拼音方案和双文制作为大陆 共产主义的一部分而加以抨击,说文字改革是消灭中国传统文化。这些年,随着信 息产业的高速发展,台湾各界和官方充分意识到了现代汉语拼音方案和双文制的战 略意义,迫于前途考虑,台湾放弃了把文字发展事业跟两党政治联系起来的方法, 毅然决然地开始了新的文字政策。与此同时,大陆却出现了“汉字优越”论,鼓吹 者们捡起了台湾的老政见,把文字改革事业说成是消灭中国传统文化。   不管怎样,事实非常清楚,中文文字改革根本不是我的发明和鼓动,而是数不 胜数的中国科学家、文学家、思想家和政治家一百多年来为之奋斗的事业。跟文字 改革的先驱们和现在还在继续为之努力的科学家们相比,我对这个事业的作为充其 量不过是发表了一些支持议论而已,是微不足道的事情。可是,思明却说支持这个 事业是“太不负责,太浅薄、太无聊!”   请问思明:你是否承认新文化运动的成就?是否承认这一百多年来中文的巨大 变化和发展进步的历史事实?那些为了中文现代化做出卓越贡献的中国科学家和文 学家,还有他们的成就,在你眼里到底有什么地位?支持他们的事业和主张是“太 不负责,太浅薄、太无聊”吗?如果支持中文文字改革的事业和主张是“不负 责”、“浅薄”和“无聊”,那么,思明写文章为什么要用标点符号?为什么要用 现代中文而不用“之乎者也”?为什么操作计算机的时候要使用现代汉语拼音而不 用反切法?在评论我的文章的时候,用什么文风写作都可以;但是,对中文现代化 发展的历史事实来说、对为这个历史做出了和正在做出贡献的人以及他们的事业来 说,我劝君还是尊重一些为好。 1999/10/19 [中国研究/zgyj1999/xiamian.htm]

阅读全文(3069) | 回复(0) | 编辑 | 精华


发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)
站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.633 second(s), page refreshed 144802624 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号