通信人家园

 找回密码
 注册
搜索
热搜: 家园 活动
凌华科技
恒扬科技
查看: 830|回复: 2

[话题讨论] 《信息论》Know Why——Warren Weaver [复制链接]

军衔等级:

  一级通信军士

注册时间:
2013-5-27
发表于 2016-12-24 12:04:56 |显示全部楼层
本帖最后由 donnar 于 2016-12-31 13:53 编辑

1分析性通信研究的一般性设定的简介


1.1   通信(Communication)


        在这里,通信(Communication)这个术语是在一个很广泛的范围上被使用,包括了一个大脑可以用来影响另一个大脑的所有过程。显然,这不仅仅包括书面和口头语言,还包括音乐、图像艺术、戏剧、芭蕾,和事实上所有的人的行为。在某些联系中,我们可能需要使用外延更大的通信(Communication)概念,也就是说,它包括了借助于一个装置(比如追踪一架飞机的轨迹并且它的下一个可能的位置)影响另一个装置(比如一枚追赶这架飞机的巡航导弹)的过程。


        这份备忘录的表达方式似乎常常指的是特殊,但却仍然非常重要和广泛的的语言通信领域;但是实际上,这里所说的一切同样适用于任何类型的音乐,和静止/移动图像(就像在电视里)。


1.2   三个层次的通信问题

        相对于通信的宽泛主题,看起来存在着三个层次的问题。因此看起来这样(顺序地)询问是合情合理的:

        层次A:通信符号怎样才能被准确传输?(技术问题)

        层次B:被传输的符号怎样才能严格且可重复地传达期望中的意思?(语义问题)

        层次C:接收到的意思怎样有效地以希望的方式影响行为?(效果问题)


        技术问题关注于符号集(书面语言),或者一个连续变化的信号(声音或音乐的电话传输或无线传输),或者一个连续变化的二维光栅(电视)等等,从发送端到接收端的准确传递。在数学上,第一种情况涉及到一个有限的离散符号集的传输,第二种情况是一个连续的时间函数的传输,而第三种情况是许多个连续的时间函数或者一个连续的时间函数加两个连续的空间坐标函数的传输。


        语义问题关注于接收端解释出来的意思与发送端有意传达的意思之间的一致性,或者令人满意的相当接近的近似。这是一种非常深奥和复杂的情况,即便只是处理相当简单的借助语言的通信问题。


        用这个评论可以阐明其基本的复杂性,即如果X先生被怀疑没能理解Y先生说了些什么,那么单凭Y先生继续和X先生说活,其它什么也不做,理论上不可能在有限的时间内澄清这种状况。如果Y先生说“你现在理解我了吗”而X先生说“当然,我能理解”时,这并不必定证明已经实现后者对前者的理解。这可能仅仅意味着X先生没理解问题本身。如果这听上去很荒谬,那么再试试询问“Czy pafi mnie rozumie”,以及得到这样的回答“Hai wakkate imasu”。我认为,至少在语言通信的严格领域,可以用一些“解释”——这些解释a)被假定为永远只不过是要被解释的想法的近似,b)但是由于它们已经被组织成(借助于之前的操作使用已经变得清晰的)语言因而是可理解的——将这个基本困难减少到可以容忍的程度(但是永远不可能彻底消除)。举个例子,不需要花多少时间就能理解任何一种语言中表示“是”的符号。


        如果人们是从一般的意义上考虑通信,就会发现语义问题将产生广泛的后果。比如,考虑一下俄罗斯人如何理解一部美国纪录片的含义。


        效果问题则关注于如何成功地让传达给接收者的意思在接收者这边产生期望中的行为。乍一看,提出所有通信的目的是影响接收者的行为这种观点看上去显得有些不受欢迎的偏狭。但是,对行为的任何合理的广泛定义来说,很清楚通信或者影响行为,或者根本没有任何可辨认和有根据的效果。


        效果问题在美术场景中包含了美学的考虑。在语言场景,无论是书面还是口头,它包含了从单纯的形式结构,到宣传理论的心理和情绪部分,到对给(在讨论实效性的章节中用到的)“成功”、“正确”等词语以有效含义是必须的价值判断。


        效果问题和语义问题有密切的相互关系,并以一种模糊的方式与后者重叠;事实上,所有三个层次的问题之间都存在着重叠。


1.3    评述


        这么说来,人们会倾向于认为,A层面的问题相对而言是表面的,仅仅包括一个通信系统的良好设计的工程细节;而问题B和问题C看上去包含了大多数(如果不是全部)通信相关的一般性问题的哲学内容。



        通信的工程方面的数学理论,主要由当时在贝尔实验室工作的克劳德.香农(Clsude Shannon)所发展,初看起来应该承认仅仅适用于解决问题A,也就是说,将不同形式的信号从发送端准确转移到接收端的技术问题。但是我认为,这个理论有着深刻的意义,足以证明前面的论述严格来说是不准确的。这个新结论的部分意义来自于一个事实,即上面提到的层面B和层面C 只能利用当分析A层面时被证明是有可能的这些信号准确性。这样,已发现的任何对A层面理论的限制,也都将成为对B和C层面的限制。但是更多部分的意义来自于对A层面的分析揭示了这个层面与其它层面的重叠度超过了人们的可能和朴素的猜想这个事实。这样,A层面的理论,至少在很大程度上,也是B层面和C层面的理论。我希望这份备忘录的后面部分能够揭示和证明这一最新的论述。


2       A层次的通信理论

2.1    一个通信系统和它的问题


        考察的通信系统也许可以用下图所示的符号形式来抽象地表示:

无标题.jpg


        信息源(informationsource)从一组可选的消息(message)中挑选一个期望的消息(message)——这是一个特别重要的评述,值得在后面进一步解释。这个被选择的消息(message)可能包括书面/口头词语、图形、音乐等等。


        发射器(transmitter)将消息(message)转换成信号(signal),后者确实地经由通信信道(communication channel)从发送端被传送到接收端。在电话系统中,这个信道是电话线,而信号(signal)是电话线上的一个不断变化的电流;发射器(transmitter)是一组将声音压力转换成变化电流的设备(比如,电话发话器)。在电报系统,发射器(transmitter)将书面词语编码成长度可变的(点、划、间隔)的断续电流序列。在口头语言中,信息源是大脑,发射器是产生可变声音压力(信号,signal)——经由空气(信道)传输——的语音器官。在无线系统中,信道简单地说就是空间(或者以太,如果有些人还坚持使用这个过时的和容易误解的术语),而信号(signal)则是被传输的电磁波。


        接收器(receiver)是一种逆发射器,将被传输的信号(signal)转换回一个消息(message),并将这个消息传递到目的地。当我和你说话时,我的大脑是信息源,你的大脑是目的地;我的发声系统是发射器,你的耳朵和与之联系的第八神经则是接收器。


        很不幸的是,在被传输的过程中,有些信息源不想有的东西被叠加到信号(signal)上。这些多余的叠加可能是声音的失真(比如在电话系统),或静电干扰(无线系统),或者图形失真/图像阴影(电视),或者传输错误(电报或者传真)等等。所有这些传输信号(transmitted signal)中的变化被统称为噪声。


        对于这样一个通信系统,人们会试图询问以下这类问题:

        1,         怎么度量信息的数量?

        2,         怎么度量一个通信系统的容量?

        3,         发射器将消息(message)转换成信号(signal)的行为中包括一个编码过程。什么是一个有效率的编码过程的特征?并且当编码是尽可能的有效率时,信道能以什么速率传递信息?

        4,         噪声有什么一般特征?噪声怎样影响目的地端最后接收到的消息(message)的准确性?怎样最小化这些不需要的噪声影响,以及它们能被消除到什么程度?

        5,         如果被传输的信号是连续的(比如口头语言或音乐),而不是被组织成离散符号(如书面语言、电报等等),会怎样影响通信问题?


        我们会在没有任何数字证明,并使用尽可能少的数学术语的前提下,陈述香农的研究成果。


2.2     信息(Information)

        在克劳德.香农的信息理论中,信息(information)这个词有特殊的含义,不能与它在日常场景中的使用相混淆。特别是,信息(information)不能和意思(meaning)相混淆。


        事实上,根据现在的观点,即所谓信息理论,两个消息——一个消息包含了丰富的意思(meaning),而另一个消息纯粹是胡说八道——可以是完全等价的。毫无疑问,正是因为这样,香农说的“通信的语义方面与通信的工程方面完全不相关”才有成立。但反过来不成立,不能说通信的工程方面与语义方面不相干。


       无疑,通信理论中的“信息”一词与其说是指你说了些什么,不如说是指你能够说什么。也就是说,信息是对你在选择一个消息时有多少选择自由的度量。如果人们面对一种很基本的情况,即必须在两个可供选择的消息中选择其一,那么就可以断定,与这个场景相联系的信息是一个单位信息。因此,说这个消息或者那个消息传递了一个单位信息是一种误解(尽管这么说很方便)。信息information的概念不适用于单独一个消息上(而意思meaning这个概念可以),而是适用于一种整体的情况,即单位信息表示在这种场景下一个人挑选一个消息时拥有一些选择自由——把这视作标准量或者单位量是很方便的。


        在这样一个选择中,人们用来作选择的两个消息(message)可以是任意的。一个消息可能是詹姆士国王版本的圣经中的文本,而另一个可能是“Yes”。发射器可以这样对两个消息进行编码,即“0”是对应第一个消息(message)的信号(signal),而“1”是对应第二个消息(message)的信号(signal);也可以是一个闭合电路(有电流)是对应第一个消息(message)的信号(signal),而一个开环电路(没有电流)是对应第二个消息(message)的信号(signal)。这样,一个简单的继电器的两个位置,闭合和打开,就可以对应于两个消息(message)。



使用道具 举报

军衔等级:

  一级通信军士

注册时间:
2013-5-27
发表于 2016-12-31 12:44:48 |显示全部楼层
本帖最后由 donnar 于 2016-12-31 12:48 编辑

2.2     信息(Information)——续1

        如果说得更明确一些,在最简单的情况下,信息(information)的量由可供选择的选择的对数来度量。由于用以2为底的对数比以10为底的对数更方便,当只有两个选择时,信息与2的以2为底的对数成正比。但是这种情况是一个单位;因此这样的二选一情况被确定为单位信息量,就像上面描述的那样。单位信息量被称为一个“比特Bit”,这个词最初是John W. Tukey提出的,是“binary digit(二进制数字)”的缩合。当数字用二进制表述时,只有两个数字,即0和1;而当使用以10为基数的十进制数字系统时,则包括10个数字,即0到9。如上所述,0和1可以用来符号化地表示任何两个选择;因此“binary digit”或者“bit”与有着单位信息量的二选一情况相关联是很自然的。

        如果有16个候选消息供人们任意自由选择,那么既然16=2^4,因此log2(16)=4,就可以说这种情况可以用4bit信息表示。

        无疑,当人们第一次看到信息(information)被定义为选择的数量的对数时,会觉得很奇怪。但是随着这个理论的演变,人们越来越清楚地发现,事实上对数形式的度量是最自然的。此刻,我们只指出其中的一点。前面提到过,一个简单的表示有两个位置——比如0和1——的开/关继电器能够处理一个拥有单位信息量的场景,其中只有两个消息(message)可供选择。如果一个继电器能够处理一个单位的信息,三个继电器能处理多少单位的信息呢?很自然地,人们想说三个继电器能够三倍于单位信息量的信息。而事实就是如此,只要人们使用信息量的对数定义。因为三个继电器能够对应于2^3或者8个选择,即如果用符号形式表示,可以是000,001,011,010,100,110,101,111,其中第一个符号对应于三个继电器全开,最后一个符号对应于三个继电器全关。而2^3的以2为底的对数是3,因此如果用对数形式来度量,就为这种场景分配了3个单位的信息量,和人们先前的期望一样。同样的,如果消息(message)数量的指数加倍,其对数也加倍;因此在对数形式的度量中,信息量也加倍。

        到目前为止的论述涉及的是人为的简单场景,即信息源仅仅是在一些确定的消息(message)中自由选择——就像人们在一组标准的生日礼仪电报中挑选一样。更自然和更重要的场景是信息源从几组基础符号(symbol)中得到一个选择序列,而这个选择出来的序列构成了消息(message)。这样一个人可以一个一个地选择单词,这些单独挑选出来的单词随后就合起来形成消息(message)。

        在这里,一个到现在为止一直隐在背景中的重要考虑浮现出来,引起了我们的注意。换句话说,就是在消息(message)的生成过程中,概率(probability)扮演的角色。因为随着连续的符号(symbol)被选择,这些选择——至少从通信系统的角度来看——是由概率(probability)决定的;并且事实上不是独立概率,而是在过程的任何一个阶段,取决于之前的选择。这样,如果我们关注英语语言,并且如果上一次选择的符号(symbol)是“the”,那么下一个单词是冠词,或者动词(不包括非限定动词)的概率是非常低的。事实上,这种概率影响会延伸到不止两个单词的情景。在三个单词“in the event”之后,下一个单词是“that”的概率是相当高的,而下一个单词是“elephant”的概率则非常低。

        这种概率在一定程度上对英语语言施加影响还能在其它事实上清楚地看到,比如,只要我们回想一下,就会发现在我们的字典中,不可能找到第一个字母是j,而后面紧跟着b,c,d,f,g,j,k,l,q,r,t,v,w,x或者z的单词;因此出现首字母是j而后面跟着上述字母的单词的概率是零。同样地,任何人都会同意出现象“Constantinople fishing nasty pink”这样的单词序列的概率也是相当小的。顺便说一句,这种概率相当小,但不是零;因为很有可能想到一个段落,其中一句话以“Constantinople fishing”结尾,而下一句话以“nasty pink”开头。而且话说回来,这个讨论中的被认为不太可能出现的四个单词组成的序列,我们可能已经发现在一句很棒的英语句子中出现,就是我上面写的那句。

        一个根据确定的概率产生符号(symbol)序列——不一定是单词,也可能是字母或者音符——的系统被称为随机过程,其中一种特殊的,即概率受制于前一个事件的随机过程,被称为Markoff过程,或Markoff链。在可以信赖地产生消息(message)的Markoff过程中,有一种特殊类型对于通信理论有着头等重要的意义,这种类型被称为遍历过程。遍历过程的分析细节是如此复杂,证明过程是如此深奥晦涩,因此创建相应的理论耗费了一些最好的数学家的最好时光;但是遍历过程的粗率性质是很好理解的。遍历过程能够产生一个民意调查者梦寐以求的符号(symbol)序列,因为任何一个相当大的序列取样都可以作为整个序列的代表。假设有两个人以不同的方式选取序列抽样,并且研究当抽样数变大时,它们的统计特征的变化趋势。如果这是个遍历情况,那么无论这两个人怎样选择他们的抽样,都能对整个序列的特征达成共识。换句话说,遍历系统展示了一种安全和舒适的统计意义上的整齐。

        现在让我们回到信息(information)这个想法。当我们有一个正在产生由连续选择的离散符号(symbol)——字母,单词,音符,确定大小的点,等等——组成的消息(message)的信息源时,并且在一个阶段选择不同符号(symbol)的概率取决于前一个选择(即这是一个Markoff过程),与这个过程有关的信息是怎么样的呢?

        能够唯一地满足人们为“信息”而创立一个物理量的自然需求的,就是之前在热力学中为人所知的熵(entropy)。它是依照涉及到的不同概率来表述——那些在形成消息(message)的过程中到达特定的阶段的概率,和当处于这个阶段时,下一个被选择的确定符号(symbol)的概率。此外,这个公式涉及到概率的对数,因此这是对前面提到过的与简单场景有关的对数形式度量的很自然的一般性概括。

        对于学过物理学的人来说,用一个类似熵的表达式来计算信息量是一件意味深长的事情。将近一百年以前Clausius引入了熵的概念,Boltzmann为熵的理论做了很多贡献,而Gibbs的统计力学的核心概念也是熵。熵是现代科学的一个基本和普遍的概念,以至于Eddington认为“熵永远增长定律——也就是热力学第二定律——占据了自然规律的最高位置。”

        在物理学中,熵是一个反映系统无序程度的物理量,或者说,你也可以认为熵代表了系统“被打乱”的程度;物理系统变得越来越失去组织性,变得越来越彻底地被“打乱”的趋势是如此基本,所以Eddington认为主要由于这个趋势给时间赋予了一个方向箭头——比如,这个时间箭头的存在会向我们揭示,这部真实物理世界的电影是在向前播放,还是向后播放。

        因此当一个人在信息理论中遇到熵的概念时,他有权觉得兴奋——他有权觉得这里面蕴藏重要而基本的秘密。当我们想起在通信理论中,信息是用构建消息时拥有的自由选择的数量来度量的话,我们就会觉得用熵来度量信息量是一件很自然的事情。因此对于一个通信源人们可以说,就像当人们把它视为一个热力学系统是也会说的,“这个场景是非常有秩序的,它不存在无序和混乱,也不存在很多的选择,也就是说,它的信息量(或者熵)是很少的。”我们以后还会回到这一点,因为除非我完全搞错了,否则这是这个理论的更普遍意义的一个重要方面。

使用道具 举报

军衔等级:

  一级通信军士

注册时间:
2013-5-27
发表于 2017-1-1 21:31:45 |显示全部楼层
        计算了一个确定的信息源的熵(或者信息,或者选择的自由度)之后,人们可以将它与这个熵可以取得最大值——唯一的限制条件是信息源继续使用同样的符号(symbol)——相比较。实际的熵与最大熵的比值被称为信息源的相对熵。假设一个信息源的相对熵是比如0.8,这就大致意味着这个信息源在挑选符号来组成一个消息时,有大约80%的自由度来挑选这些符号。1减去相对熵被叫做冗余度。这是消息的结构中——并不取决于发送者的自由选择,而是取决于惯用的掌管讨论中的符号的统计学规则——的那一部分。它被称为冗余度是很明显地,因为消息的这个部分事实上按某些近似常识的原则来说,是多余的;也就是说,消息的这个部分——从如果这部分丢失,消息实质上仍然完整,或者至少可以被补充完整的意义上来说——是不必要的(并且因此是重复的和冗余的)。


        最有意思的一点是,英语的冗余度差不多是50%,因此我们在写作或者说话时选择的字母或者单词中,大约一半是基于我们的自由选择,而大约一半(尽管我们通常没有意识到这点)实际上受到语言的统计学结构的控制。除了我们会延后放到最后的讨论部分的严肃影响之外,有意思的一点是一门语言选择字母时必须有至少50%的实质自由(或者相对熵),这样人们才能够设计满意的纵横字谜游戏。如果存在完全的自由度,那么每一个字母阵列都是一个纵横字谜。如果仅仅只有20        %的自由度,就不可能设计出现这么多和这么复杂的流行纵横字谜。香农曾经估计过,如果英语语言只有大约30%的冗余度,那么就有可能设计三维纵横字谜。

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

Archiver|手机版|C114 ( 沪ICP备12002291号 )|联系我们 |网站地图  

GMT+8, 2017-1-24 00:41 , Processed in 0.103916 second(s), 19 queries , Gzip On.

Copyright © 1999-2016 C114 All Rights Reserved

Discuz Licensed

回顶部