通信人家园

 找回密码
 注册
搜索
热搜: 家园 活动
恒扬科技
查看: 1312|回复: 11

[话题讨论] 《信息论》Know Why——Warren Weaver [复制链接]

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2016-12-24 12:04:56 |显示全部楼层
本帖最后由 donnar 于 2016-12-31 13:53 编辑

1分析性通信研究的一般性设定的简介


1.1   通信(Communication)


        在这里,通信(Communication)这个术语是在一个很广泛的范围上被使用,包括了一个大脑可以用来影响另一个大脑的所有过程。显然,这不仅仅包括书面和口头语言,还包括音乐、图像艺术、戏剧、芭蕾,和事实上所有的人的行为。在某些联系中,我们可能需要使用外延更大的通信(Communication)概念,也就是说,它包括了借助于一个装置(比如追踪一架飞机的轨迹并且它的下一个可能的位置)影响另一个装置(比如一枚追赶这架飞机的巡航导弹)的过程。


        这份备忘录的表达方式似乎常常指的是特殊,但却仍然非常重要和广泛的的语言通信领域;但是实际上,这里所说的一切同样适用于任何类型的音乐,和静止/移动图像(就像在电视里)。


1.2   三个层次的通信问题

        相对于通信的宽泛主题,看起来存在着三个层次的问题。因此看起来这样(顺序地)询问是合情合理的:

        层次A:通信符号怎样才能被准确传输?(技术问题)

        层次B:被传输的符号怎样才能严格且可重复地传达期望中的意思?(语义问题)

        层次C:接收到的意思怎样有效地以希望的方式影响行为?(效果问题)


        技术问题关注于符号集(书面语言),或者一个连续变化的信号(声音或音乐的电话传输或无线传输),或者一个连续变化的二维光栅(电视)等等,从发送端到接收端的准确传递。在数学上,第一种情况涉及到一个有限的离散符号集的传输,第二种情况是一个连续的时间函数的传输,而第三种情况是许多个连续的时间函数或者一个连续的时间函数加两个连续的空间坐标函数的传输。


        语义问题关注于接收端解释出来的意思与发送端有意传达的意思之间的一致性,或者令人满意的相当接近的近似。这是一种非常深奥和复杂的情况,即便只是处理相当简单的借助语言的通信问题。


        用这个评论可以阐明其基本的复杂性,即如果X先生被怀疑没能理解Y先生说了些什么,那么单凭Y先生继续和X先生说活,其它什么也不做,理论上不可能在有限的时间内澄清这种状况。如果Y先生说“你现在理解我了吗”而X先生说“当然,我能理解”时,这并不必定证明已经实现后者对前者的理解。这可能仅仅意味着X先生没理解问题本身。如果这听上去很荒谬,那么再试试询问“Czy pafi mnie rozumie”,以及得到这样的回答“Hai wakkate imasu”。我认为,至少在语言通信的严格领域,可以用一些“解释”——这些解释a)被假定为永远只不过是要被解释的想法的近似,b)但是由于它们已经被组织成(借助于之前的操作使用已经变得清晰的)语言因而是可理解的——将这个基本困难减少到可以容忍的程度(但是永远不可能彻底消除)。举个例子,不需要花多少时间就能理解任何一种语言中表示“是”的符号。


        如果人们是从一般的意义上考虑通信,就会发现语义问题将产生广泛的后果。比如,考虑一下俄罗斯人如何理解一部美国纪录片的含义。


        效果问题则关注于如何成功地让传达给接收者的意思在接收者这边产生期望中的行为。乍一看,提出所有通信的目的是影响接收者的行为这种观点看上去显得有些不受欢迎的偏狭。但是,对行为的任何合理的广泛定义来说,很清楚通信或者影响行为,或者根本没有任何可辨认和有根据的效果。


        效果问题在美术场景中包含了美学的考虑。在语言场景,无论是书面还是口头,它包含了从单纯的形式结构,到宣传理论的心理和情绪部分,到对给(在讨论实效性的章节中用到的)“成功”、“正确”等词语以有效含义是必须的价值判断。


        效果问题和语义问题有密切的相互关系,并以一种模糊的方式与后者重叠;事实上,所有三个层次的问题之间都存在着重叠。


1.3    评述


        这么说来,人们会倾向于认为,A层面的问题相对而言是表面的,仅仅包括一个通信系统的良好设计的工程细节;而问题B和问题C看上去包含了大多数(如果不是全部)通信相关的一般性问题的哲学内容。



        通信的工程方面的数学理论,主要由当时在贝尔实验室工作的克劳德.香农(Clsude Shannon)所发展,初看起来应该承认仅仅适用于解决问题A,也就是说,将不同形式的信号从发送端准确转移到接收端的技术问题。但是我认为,这个理论有着深刻的意义,足以证明前面的论述严格来说是不准确的。这个新结论的部分意义来自于一个事实,即上面提到的层面B和层面C 只能利用当分析A层面时被证明是有可能的这些信号准确性。这样,已发现的任何对A层面理论的限制,也都将成为对B和C层面的限制。但是更多部分的意义来自于对A层面的分析揭示了这个层面与其它层面的重叠度超过了人们的可能和朴素的猜想这个事实。这样,A层面的理论,至少在很大程度上,也是B层面和C层面的理论。我希望这份备忘录的后面部分能够揭示和证明这一最新的论述。


2       A层次的通信理论

2.1    一个通信系统和它的问题


        考察的通信系统也许可以用下图所示的符号形式来抽象地表示:

无标题.jpg


        信息源(informationsource)从一组可选的消息(message)中挑选一个期望的消息(message)——这是一个特别重要的评述,值得在后面进一步解释。这个被选择的消息(message)可能包括书面/口头词语、图形、音乐等等。


        发射器(transmitter)将消息(message)转换成信号(signal),后者确实地经由通信信道(communication channel)从发送端被传送到接收端。在电话系统中,这个信道是电话线,而信号(signal)是电话线上的一个不断变化的电流;发射器(transmitter)是一组将声音压力转换成变化电流的设备(比如,电话发话器)。在电报系统,发射器(transmitter)将书面词语编码成长度可变的(点、划、间隔)的断续电流序列。在口头语言中,信息源是大脑,发射器是产生可变声音压力(信号,signal)——经由空气(信道)传输——的语音器官。在无线系统中,信道简单地说就是空间(或者以太,如果有些人还坚持使用这个过时的和容易误解的术语),而信号(signal)则是被传输的电磁波。


        接收器(receiver)是一种逆发射器,将被传输的信号(signal)转换回一个消息(message),并将这个消息传递到目的地。当我和你说话时,我的大脑是信息源,你的大脑是目的地;我的发声系统是发射器,你的耳朵和与之联系的第八神经则是接收器。


        很不幸的是,在被传输的过程中,有些信息源不想有的东西被叠加到信号(signal)上。这些多余的叠加可能是声音的失真(比如在电话系统),或静电干扰(无线系统),或者图形失真/图像阴影(电视),或者传输错误(电报或者传真)等等。所有这些传输信号(transmitted signal)中的变化被统称为噪声。


        对于这样一个通信系统,人们会试图询问以下这类问题:

        1,         怎么度量信息的数量?

        2,         怎么度量一个通信系统的容量?

        3,         发射器将消息(message)转换成信号(signal)的行为中包括一个编码过程。什么是一个有效率的编码过程的特征?并且当编码是尽可能的有效率时,信道能以什么速率传递信息?

        4,         噪声有什么一般特征?噪声怎样影响目的地端最后接收到的消息(message)的准确性?怎样最小化这些不需要的噪声影响,以及它们能被消除到什么程度?

        5,         如果被传输的信号是连续的(比如口头语言或音乐),而不是被组织成离散符号(如书面语言、电报等等),会怎样影响通信问题?


        我们会在没有任何数字证明,并使用尽可能少的数学术语的前提下,陈述香农的研究成果。


2.2     信息(Information)

        在克劳德.香农的信息理论中,信息(information)这个词有特殊的含义,不能与它在日常场景中的使用相混淆。特别是,信息(information)不能和意思(meaning)相混淆。


        事实上,根据现在的观点,即所谓信息理论,两个消息——一个消息包含了丰富的意思(meaning),而另一个消息纯粹是胡说八道——可以是完全等价的。毫无疑问,正是因为这样,香农说的“通信的语义方面与通信的工程方面完全不相关”才有成立。但反过来不成立,不能说通信的工程方面与语义方面不相干。


       无疑,通信理论中的“信息”一词与其说是指你说了些什么,不如说是指你能够说什么。也就是说,信息是对你在选择一个消息时有多少选择自由的度量。如果人们面对一种很基本的情况,即必须在两个可供选择的消息中选择其一,那么就可以断定,与这个场景相联系的信息是一个单位信息。因此,说这个消息或者那个消息传递了一个单位信息是一种误解(尽管这么说很方便)。信息information的概念不适用于单独一个消息上(而意思meaning这个概念可以),而是适用于一种整体的情况,即单位信息表示在这种场景下一个人挑选一个消息时拥有一些选择自由——把这视作标准量或者单位量是很方便的。


        在这样一个选择中,人们用来作选择的两个消息(message)可以是任意的。一个消息可能是詹姆士国王版本的圣经中的文本,而另一个可能是“Yes”。发射器可以这样对两个消息进行编码,即“0”是对应第一个消息(message)的信号(signal),而“1”是对应第二个消息(message)的信号(signal);也可以是一个闭合电路(有电流)是对应第一个消息(message)的信号(signal),而一个开环电路(没有电流)是对应第二个消息(message)的信号(signal)。这样,一个简单的继电器的两个位置,闭合和打开,就可以对应于两个消息(message)。



使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2016-12-31 12:44:48 |显示全部楼层
本帖最后由 donnar 于 2016-12-31 12:48 编辑

2.2     信息(Information)——续1

        如果说得更明确一些,在最简单的情况下,信息(information)的量由可供选择的选择的对数来度量。由于用以2为底的对数比以10为底的对数更方便,当只有两个选择时,信息与2的以2为底的对数成正比。但是这种情况是一个单位;因此这样的二选一情况被确定为单位信息量,就像上面描述的那样。单位信息量被称为一个“比特Bit”,这个词最初是John W. Tukey提出的,是“binary digit(二进制数字)”的缩合。当数字用二进制表述时,只有两个数字,即0和1;而当使用以10为基数的十进制数字系统时,则包括10个数字,即0到9。如上所述,0和1可以用来符号化地表示任何两个选择;因此“binary digit”或者“bit”与有着单位信息量的二选一情况相关联是很自然的。

        如果有16个候选消息供人们任意自由选择,那么既然16=2^4,因此log2(16)=4,就可以说这种情况可以用4bit信息表示。

        无疑,当人们第一次看到信息(information)被定义为选择的数量的对数时,会觉得很奇怪。但是随着这个理论的演变,人们越来越清楚地发现,事实上对数形式的度量是最自然的。此刻,我们只指出其中的一点。前面提到过,一个简单的表示有两个位置——比如0和1——的开/关继电器能够处理一个拥有单位信息量的场景,其中只有两个消息(message)可供选择。如果一个继电器能够处理一个单位的信息,三个继电器能处理多少单位的信息呢?很自然地,人们想说三个继电器能够三倍于单位信息量的信息。而事实就是如此,只要人们使用信息量的对数定义。因为三个继电器能够对应于2^3或者8个选择,即如果用符号形式表示,可以是000,001,011,010,100,110,101,111,其中第一个符号对应于三个继电器全开,最后一个符号对应于三个继电器全关。而2^3的以2为底的对数是3,因此如果用对数形式来度量,就为这种场景分配了3个单位的信息量,和人们先前的期望一样。同样的,如果消息(message)数量的指数加倍,其对数也加倍;因此在对数形式的度量中,信息量也加倍。

        到目前为止的论述涉及的是人为的简单场景,即信息源仅仅是在一些确定的消息(message)中自由选择——就像人们在一组标准的生日礼仪电报中挑选一样。更自然和更重要的场景是信息源从几组基础符号(symbol)中得到一个选择序列,而这个选择出来的序列构成了消息(message)。这样一个人可以一个一个地选择单词,这些单独挑选出来的单词随后就合起来形成消息(message)。

        在这里,一个到现在为止一直隐在背景中的重要考虑浮现出来,引起了我们的注意。换句话说,就是在消息(message)的生成过程中,概率(probability)扮演的角色。因为随着连续的符号(symbol)被选择,这些选择——至少从通信系统的角度来看——是由概率(probability)决定的;并且事实上不是独立概率,而是在过程的任何一个阶段,取决于之前的选择。这样,如果我们关注英语语言,并且如果上一次选择的符号(symbol)是“the”,那么下一个单词是冠词,或者动词(不包括非限定动词)的概率是非常低的。事实上,这种概率影响会延伸到不止两个单词的情景。在三个单词“in the event”之后,下一个单词是“that”的概率是相当高的,而下一个单词是“elephant”的概率则非常低。

        这种概率在一定程度上对英语语言施加影响还能在其它事实上清楚地看到,比如,只要我们回想一下,就会发现在我们的字典中,不可能找到第一个字母是j,而后面紧跟着b,c,d,f,g,j,k,l,q,r,t,v,w,x或者z的单词;因此出现首字母是j而后面跟着上述字母的单词的概率是零。同样地,任何人都会同意出现象“Constantinople fishing nasty pink”这样的单词序列的概率也是相当小的。顺便说一句,这种概率相当小,但不是零;因为很有可能想到一个段落,其中一句话以“Constantinople fishing”结尾,而下一句话以“nasty pink”开头。而且话说回来,这个讨论中的被认为不太可能出现的四个单词组成的序列,我们可能已经发现在一句很棒的英语句子中出现,就是我上面写的那句。

        一个根据确定的概率产生符号(symbol)序列——不一定是单词,也可能是字母或者音符——的系统被称为随机过程,其中一种特殊的,即概率受制于前一个事件的随机过程,被称为Markoff过程,或Markoff链。在可以信赖地产生消息(message)的Markoff过程中,有一种特殊类型对于通信理论有着头等重要的意义,这种类型被称为遍历过程。遍历过程的分析细节是如此复杂,证明过程是如此深奥晦涩,因此创建相应的理论耗费了一些最好的数学家的最好时光;但是遍历过程的粗率性质是很好理解的。遍历过程能够产生一个民意调查者梦寐以求的符号(symbol)序列,因为任何一个相当大的序列取样都可以作为整个序列的代表。假设有两个人以不同的方式选取序列抽样,并且研究当抽样数变大时,它们的统计特征的变化趋势。如果这是个遍历情况,那么无论这两个人怎样选择他们的抽样,都能对整个序列的特征达成共识。换句话说,遍历系统展示了一种安全和舒适的统计意义上的整齐。

        现在让我们回到信息(information)这个想法。当我们有一个正在产生由连续选择的离散符号(symbol)——字母,单词,音符,确定大小的点,等等——组成的消息(message)的信息源时,并且在一个阶段选择不同符号(symbol)的概率取决于前一个选择(即这是一个Markoff过程),与这个过程有关的信息是怎么样的呢?

        能够唯一地满足人们为“信息”而创立一个物理量的自然需求的,就是之前在热力学中为人所知的熵(entropy)。它是依照涉及到的不同概率来表述——那些在形成消息(message)的过程中到达特定的阶段的概率,和当处于这个阶段时,下一个被选择的确定符号(symbol)的概率。此外,这个公式涉及到概率的对数,因此这是对前面提到过的与简单场景有关的对数形式度量的很自然的一般性概括。

        对于学过物理学的人来说,用一个类似熵的表达式来计算信息量是一件意味深长的事情。将近一百年以前Clausius引入了熵的概念,Boltzmann为熵的理论做了很多贡献,而Gibbs的统计力学的核心概念也是熵。熵是现代科学的一个基本和普遍的概念,以至于Eddington认为“熵永远增长定律——也就是热力学第二定律——占据了自然规律的最高位置。”

        在物理学中,熵是一个反映系统无序程度的物理量,或者说,你也可以认为熵代表了系统“被打乱”的程度;物理系统变得越来越失去组织性,变得越来越彻底地被“打乱”的趋势是如此基本,所以Eddington认为主要由于这个趋势给时间赋予了一个方向箭头——比如,这个时间箭头的存在会向我们揭示,这部真实物理世界的电影是在向前播放,还是向后播放。

        因此当一个人在信息理论中遇到熵的概念时,他有权觉得兴奋——他有权觉得这里面蕴藏重要而基本的秘密。当我们想起在通信理论中,信息是用构建消息时拥有的自由选择的数量来度量的话,我们就会觉得用熵来度量信息量是一件很自然的事情。因此对于一个通信源人们可以说,就像当人们把它视为一个热力学系统是也会说的,“这个场景是非常有秩序的,它不存在无序和混乱,也不存在很多的选择,也就是说,它的信息量(或者熵)是很少的。”我们以后还会回到这一点,因为除非我完全搞错了,否则这是这个理论的更普遍意义的一个重要方面。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-1-1 21:31:45 |显示全部楼层
        计算了一个确定的信息源的熵(或者信息,或者选择的自由度)之后,人们可以将它与这个熵可以取得最大值——唯一的限制条件是信息源继续使用同样的符号(symbol)——相比较。实际的熵与最大熵的比值被称为信息源的相对熵。假设一个信息源的相对熵是比如0.8,这就大致意味着这个信息源在挑选符号来组成一个消息时,有大约80%的自由度来挑选这些符号。1减去相对熵被叫做冗余度。这是消息的结构中——并不取决于发送者的自由选择,而是取决于惯用的掌管讨论中的符号的统计学规则——的那一部分。它被称为冗余度是很明显地,因为消息的这个部分事实上按某些近似常识的原则来说,是多余的;也就是说,消息的这个部分——从如果这部分丢失,消息实质上仍然完整,或者至少可以被补充完整的意义上来说——是不必要的(并且因此是重复的和冗余的)。


        最有意思的一点是,英语的冗余度差不多是50%,因此我们在写作或者说话时选择的字母或者单词中,大约一半是基于我们的自由选择,而大约一半(尽管我们通常没有意识到这点)实际上受到语言的统计学结构的控制。除了我们会延后放到最后的讨论部分的严肃影响之外,有意思的一点是一门语言选择字母时必须有至少50%的实质自由(或者相对熵),这样人们才能够设计满意的纵横字谜游戏。如果存在完全的自由度,那么每一个字母阵列都是一个纵横字谜。如果仅仅只有20        %的自由度,就不可能设计出现这么多和这么复杂的流行纵横字谜。香农曾经估计过,如果英语语言只有大约30%的冗余度,那么就有可能设计三维纵横字谜。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-1-31 20:45:41 |显示全部楼层
     在结束讨论信息(information)的这个章节之前,应该指出,层次A分析处理信息这个概念——描绘了信息源的全部统计属性,而不关注单独的消息(并且一点也不直接关注单独的消息的含义)——的真正原因是,从工程的观点来看,一个通信系统必须直面处理信息源能产生的任何消息(message)的难题。如果不可能设计一个能完美处理一切的系统,或者这样的设计不具有可行性,那么这个系统必须被设计成很好地完成它最有可能被要求做的事情,并且容忍在处理罕见的工作任务是变得低效。这种类型的考虑立刻导致了描绘一个特定的源能够和将要产生的所有消息的整体的统计特性的必要性。而信息(information),正如在通信理论中被使用,做得到这一点。

     尽管关注数学细节根本不是本文的目的,然而尽可能地获得对量度信息的类似熵的表达式有良好的理解似乎是至关重要的。如果有人关注(在一个简单的场景下)一组数量为n的独立符号(symbol),或者就此而言的一组数量为n的独立消息(message),它们的选择概率是p(1),p(2)…p(n),那么信息的实际表达式是:
     H=-[p(1)logp(1)+ p(2)logp(2)+…p(n)logp(n)]

     这看上去有一点复杂;不过让我们看看,在一些简单的场景中, 这个公式的形式。

     首先假设,我们只对两个可能的消息进行选择,其中选择第一个消息的概率是p1,而选择第二个消息的概率是p2=1- p1。如果要估算这个场景下H的数值,人们会发现,当两个消息被选择的可能性一样时,H的值最大,即1;也就是说当p1= p2=1/2,即人们可以随意选择两个消息中的一个时。一旦一个消息被选择的可能性超过另一个消息(比如p1大于p2),H值就会减小。当一个消息被选择的可能性非常大时(比如p1接近1,而p2接近0),H的值就变得非常小(接近0)。

     在一种可能性是单位1(确定无疑),而其它所有可能性是0(肯定不可能)的特定场景中,H等于0(没有任何不确定性——没有任何选择自由度——没有信息)。

     这样,当两种可能性相等时,H最大(即人们选择时是完全自由和没有偏见的),而当人们逐渐失去选择自由时,H减少到0。

     实际上,刚才描述的情况是非常典型的。如果有很多选择(不仅仅只有两个选择),那么在环境许可下,不同选择的可能性都差不多时,H最大——当人们做选择时享有尽可能大的自由,尽可能少地被推向某些超过它们的应得可能性的选择时。加入,从另一个角度来说,一个选择的可能性接近1,因此所有其它选择的可能性接近0。显然这是一个人们受某个特定选择的强烈影响的情况,因此几乎没有什么选择的自由。在这种场景下,H的数值非常小——信息量(选择的自由度、不确定性)较低。

     当可选择数量固定时,不同选项的可能性越接近,信息量越大。还有另一种提高H的方法,也就是增加可选择的数量。更确切地说,在所有选择的可能性近似相等的情况下,选择项越多,H越大;从50个标准消息中自由选择的场景,比从25个标准消息中自由选择的场景拥有更多的信息。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-1-31 23:04:11 |显示全部楼层
本帖最后由 donnar 于 2017-1-31 23:04 编辑

2.3        通信信道的容量

     讨论完上面的章节后,大家就不会对信道的容量不是用它能传输的符号(symbol)数量,而是用它能传输的信息(information)来表示而感到吃惊。更好的办法是,由于后面一种说法会导致对单词“信息(information)”的误读,信道的容量可以用它传输从一个特定信息源中产生的东西的能力来描述。

     如果信息源属于一种简单的类型,即所有的符号的持续时间相同(比如电传打字电报),如果在这样的信息源中每个被选择的符号代表s比特的信息(从2^s个符号中自由选择),并且如果该信道每秒钟能传输比如n个符号,那么信道的容量C被定义为ns 比特/秒。


     在更一般的情况下,人们必须考虑到不同符号有不同的长度。这样,信道容量的一般表达式涉及到特定持续时间下的符号数量的对数(这其实就是信息这个概念的由来,对应于上一段的简单场景的s因子);同时也涉及被处理的符号数量(对应于上一段的n因子)。这样,在一般的情况下,容量不是衡量每秒钟传送的符号数量,而是每秒钟传送的信息的量,单位是“比特/秒”。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-1 14:39:34 |显示全部楼层
2.4     编码

     本文开始的时候我们提到,发射器接收到消息(message)并把它转化为名叫信号(signal)的某种事物,后者是真正通过信道被传到接收器。

     类似电话的发射器只是将听得见的声音改变为某种马上显得不同,但又是明显等价的事物。但是发射器也可以对消息实施复杂得多的操作来生成信号。比如,它能够取到一条书面消息,并且用一些编码将这条消息加密到比如一个数字序列;而这些数字接下来作为信号,在信道上被传输。

     这样我们可以说,通常发射器的功能是对消息编码,而接收器的功能是对消息解码。这个理论考虑到了非常复杂的发射器和接收器,比如,拥有“记忆”,因此它们对消息中一个特定符号编码的方法不仅仅取决于这个符号本身,还取决于消息中的前一个符号以及前一个符号的编码方法。

     我们现在处于根据这个理论,为传输离散符号的无噪声信道陈述基本定理的状态。这个定理涉及到一条容量是C比特/秒的通信信道——它从一个熵(或者信息)是H比特/秒的源中接收信号。这个定理陈述的是,通过为发射器设计正确的编码过程,就有可能在这个信道上以接近C/H的平均速率传送符号,但是无论这个编码方法多么聪明,这个速率都不可能超过C/H。

     稍后当我们讨论包含噪声的更一般场景时,这个定理的意义会更有效地被讨论。然而,在那时,注意到编码在其中扮演的关键角色是非常重要的。

     记住,与生成消息或者信号的过程相关联的熵(或者信息)取决于这个过程的统计特征——取决于到达不同消息场景的不同概率,和在这些不同场景中选择下一个符号的不同概率。消息的统计特征完全取决于源的特征。但是在一个信道上实际传送的信号的统计特征,和由此产生的信道的熵,既取决于试图往信道内送入的东西,又取决于信道处理不同信号场景的能力。比如,对电报来说,点和点、点和划、划和划之间必须有间隔,否则将无法识别点和划。

     现在,结果表明,当一个信道确实有这种类型的确定约束,即限制完全的信号自由,就会存在确定的统计性信号特征——该信号特征会产生一个比其它任何统计性信号结构更大的信号熵,并且在这个重要的情况下,这个信号熵恰好等于信道的容量。

     根据这些想法,现在有可能精确地描述大部分有效的编码类型的特征。事实上,最好的发射器是以这样的方式对消息编码,即产生的信号有着最适合所使用的信道的最佳统计特征——事实上这最大化了信号熵(或者大家也可以说是信道熵),并使之等于信道的容量C。

     根据上面提到的基本定理,这种编码为传输符号产生了最大的C/H比。但是,为了得到这个传输速率增益,系统付出了代价。相当事与愿违的是,当编码越来越接近完美时,系统处理编码带来的延迟也越来越长。这种两难处境得到了部分缓解:一方面是因为在电子设备中,“长”可能只意味着一秒中非常小的一部分;另一方面是因为系统在传输速率增益和编码时间损失之间作了折衷妥协。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-1 17:43:15 |显示全部楼层
2.5        噪声

     噪声是怎样影响信息的?我们必须经常回忆,信息是在挑选一个消息时对选择的自由度的衡量。选择的自由度越大,而由此产生的信息越大,而这个被挑选出的消息是某个特定消息的不确定性就越大。更大的选择自由、更大的不确定性、更大的信息,三者密切相关。

     如果引入了噪声,那么接收到的消息里面就包含了一定的失真,一定的错误,一定的外来杂质,这无疑导致人们会说,由于噪声的影响,接收到的消息表现出一种不确定性的增加。但是如果不确定性增加了,信息也会增加,而这听上去似乎噪声是有益的。

     通常来说确实,当存在噪声时,接收到的信号表现出更多的信息——或者更好的信息,比起发射信号,接收信号是从一个更多样的集合中被挑选出来。这是一个漂亮地说明了人们会掉进去的语义陷阱的情境,如果他没有回想起“信息”在这里是作为衡量选择的自由度的特殊意思来使用,而因此不确定性和已经做出的选择有关。因此,单词“信息”有好的或者坏的内涵是有可能的。因为发送端的自由选择的效果而带来的不确定性是受欢迎的不确定性。由于错误或者噪声的影响而产生的不确定性是不受欢迎的不确定性。

     这样对“接收信号有更多信息”这句话是在哪里开玩笑就很清楚了。其中有些信息是欺骗的和不受欢迎的,是通过噪声被带进来的。为了在接收信号中得到有用信息,我们必须去除这些欺骗性的成分。

     在我们整理清楚这个观点之前,先停下来绕一点路。假设我们有两个符号集合,比如由信息源生成的消息符号,和实际接收到的信号符号。这两个符号集合的概率是相互关联的,因为很清楚,接收到一个确定符号的概率取决于什么符号被发送。如果没有噪声或者其它原因导致的错误,接收信号将精确对应于发送的消息符号;在有错误可能的情况下,很明显,接收符号的概率与对应于或者接近对应于发送的消息符号的那些事物密切相关。

     现在这种情况下,我们可以计算所谓的一个符号集合相对于另一个集合的熵。比如,让我们考虑消息(message)相对于信号(signal)的熵。不走运的是,如果不涉及到细节,我们无法理解这里涉及到的问题。假设此刻,系统知道已经收到了一个确定的信号符号(signal symbol),那么每一个消息符号(message symbol)具有一个确定的概率——如果这个符号等于或者类似于接收到的符号,则概率比较大,否则概率比较小。利用这个概率集合,我们可以计算一个假设性的熵值。这就是假设已经确切地知道接收符号(received symbol)或者信号符号(signal symbol)情况下的消息熵。在任何良好条件下,这个值都比较小,因为涉及到的概率不是均匀地分布到多个集合成员,而是严重依赖于1个或者为数不多的几个集合成员。如果噪声被完全忽略,在任何情况下它的值就是零,因为那时信号符号已知,除了一个概率为1的符号(即接收到的符号),所有的消息概率都是零。

     对与每一个接收到的信号符号有关的假设,我们可以计算其中的一个假设性消息熵。计算出所有假设性消息熵,取平均值,并且根据计算时用到的信号符号的概率取适当的权重值。当考虑两个符号集合时,用这种方法计算出来的熵叫做相对熵(relative entropies)。刚才描述到的一个特殊情况是消息相对信号的熵,而香农也称之为“模棱两可的话(混义谬误)”。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-1 20:49:11 |显示全部楼层
     通过这种方法计算“混义谬误”,我们可以看到其意义所在。它测量了当信号已知时,存在于消息中的不确定性。如果不存在噪声,那么如果信号已知,就不会有关于这个消息的不确定性。如果在信号已知后,信息源还有任何残留的不确定性,那么这一定是由于噪声而产生的不受欢迎的不确定性。

     上面几段文字的中心内容是“当信号已知时,存在于消息中的不确定性”的数量值。同样另一个类似的数值量也同样可以被表达为“当发送消息已知时,与接收信号有关的不确定性”。当不存在噪声时,后一个不确定性同样是零。

     对于这些数量值的相互关系,很容易证明:
        H(x) –Hy(x)=H(y)-Hx(y)
其中H(x)是消息源的熵或者信息;是H(y)是接收到的信号的熵或者信息;Hy(x)是当信号已知时,消息源的混义谬误,或者不确定性;Hx(y)是当发送的消息已知时,接收到的信号的不确定性,或者噪声引起的接收信号的信息中的欺骗部分。等式的右边部分是克服了噪声的坏影响后,被传输的有用信息。

     现在就有可能来解释什么是一个带噪声的信道的容量C。事实上,它被定义为相当于该信道能传输的有用信息(即全部不确定性—噪声不确定性)的最大速率(单位是比特每秒)。

     这里,我们为什么要提到“最大”速率?我们能做什么让这个速率更大或者更小?回答是,通过选择一个统计特征与信道特征强加的约束条件恰当相关的源,我们可以影响这个速率。就是说,通过使用正确的编码,我们可以最大化传输有用信息的速率。

     而现在,让我们最后考虑一条有噪声的信道的基本定理。假设这条有噪声信道,就前面描述过的意义来说,有容量C,假设该信道从一个以熵是H(x)比特/秒为特征的源接收到接收信号,该信号的熵是H(y)比特/秒。  如果信道容量C等于或者大于H(x),那么通过设计恰当的编码系统,源的输出就能够以尽可能小的差错率在信道上传输。不管你设定多么小的差错率,都能够找到一个满足需求的编码。但是如果信道容量C小于H(x),即信道来接纳消息的源的熵,那么就不可能设计一个编码,做到差错率尽可能的小。

     不管编码过程多么聪明,可以肯定的是,接收到信号之后,总会残留一些与该消息有关的不受欢迎的(噪声)不确定性;而这个不受欢迎的不确定性——这个混义谬误——总是等于或者大于H(x)-C。而且,总是存在至少一种编码,能够将涉及该消息的不受欢迎的不确定性将至一个量,这个量比H(x)-C大任意小的数值。

     当然,最重要的方面是,不受欢迎的或者欺骗性的不确定性的最小值不能被进一步减少,不管编码过程多么复杂和恰当。这个强有力的定理得到了一个对于人们在一个工作在噪声环境中的通信信道能够获得的最大可靠性的精确的和几乎是惊人的简单描述。

     香农指出的一个实用推论应该被提及。由于英语有大约50%的冗余度,在通过无噪声信道传输的情况下,借助一个恰当的编码过程,我们有可能节约大约一半的普通电报时间。然而,当信道中存在噪声时,一个编码过程不是用来消除所有的冗余是有好处的。因为保留的冗余能帮助对抗噪声。这很容易看出来,比如,因为基于英语的冗余度比较高的事实,我们能几乎毫不犹豫地纠正语言传输过程产生的拼写错误。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-2 11:43:06 |显示全部楼层
2.6        连续消息

     到目前为止,我们涉及的都是由离散符号组成的消息,就像由字母组成的单词,单词组成的句子,音符组成的乐章,或者有限个点组成的半色调图片。如果我们考虑连续的消息,比如有着音高和能量的连续变化的语音,相应的理论又会如何?

     大致来讲,人们也许会说这个扩展理论在某种程度上会有更多的数学困难和复杂性,但是不会有本质的区别。很多上述针对离散场景的陈述不需要修改,而其它的陈述只需要小的修改。

     一个能带来帮助的情境如下所述。在实际情况中,人们常常对一种由简单的和谐成分——这些成分不是所有的频率成分,而是位于一个从零到W(周期/秒)频率的频段的频率成分——组成的连续信号感兴趣。这样,尽管人类的语音包含高频成分,但是只能处理最高4000赫兹频率的电话信道就能取得满意的通信效果。如果频率上限是1万或者1.2万赫兹,就可能实现交响乐的高保真无线传输,等等。

     有一个非常方便的数学定理,陈述了一个持续时间为T秒、频段限制在0到W赫兹区间的连续信号,可以用2TW个数字来完整详细地讲清楚。这是一个非凡的定理。通常一条连续曲线的特征只能用任何它经过的有限点来近似描绘,而对于该曲线的完整信息,则通常需要无限多个点。但是,如果这条曲线是由有限个频率的简单和谐成分组成,比如一个复杂的声音是由有限个单纯的音符组成,那么,就只有有限数目的参数是必要的。这有着巨大的好处,将连续信号的通信问题的特征从一个复杂的场景——人们不得不处理无限多个参数——简化为一个相当简单的场景——人们只需要处理有限个(尽管还是很多)参数。

     在连续情况的理论中,发展出了描述频率带宽是W的信道的最大容量C的公式,其中P是使用的平均功率,N是信道遇到的噪声功率——这噪声是香农定义的一种特殊类型的白热噪声。这种白热噪声本身在频域是带宽受限的,并且其不同频率成分的幅度由正态(高斯)概率分布决定。在这个环境下,香农得出了这个定理,再一次简洁性和广泛性上卓越不凡,即借助最好的编码,有可能以下面的速率(单位是比特/秒)传输二进制数字
        Wlog2(1+P/N)
并且差错率是任意的小。但是无论编码多么聪明,这个速率不可能在不增加差错率的前提下被超过。对于存在任意噪声的场景(不同于前面提高的特殊的“白色热噪声”),香农没有能够推导出一个信道容量的明确公式,但却得出了有价值的信道容量的上限和下限。而且他也推导出,当人们不用平均功率,而是用瞬间峰值功率说明发射器时, 信道容量的限制。

     最后应该说明,在某种程度上,香农得到的结论适用范围没有那么狭窄,而是明显具有深刻和广泛的意义——对于一种一般类型的连续消息或者信号来说,这个结论描绘了接收消息的保真度的特征,而且源生成信息的速率的概念,传输速率和信道容量,所有这些都与确定的保真度需求有关联。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-2 12:33:09 |显示全部楼层
3        三个层面通信问题的相互关联

3.1        概述

     本文的第一部分建议,当人们考虑一般性的通信问题时存在着三个层面。也就是说,人们可能会问:

     层面A:怎样准确传输通信符号?(技术问题)
     层面B:被传输的符号怎样严格且可重复地传达期望中的意思?(语义问题)
     层面C:接收到的意思怎样有效地以期望的方式影响行为?(效果问题)

     本文第一部分认为,由香农、维纳和其他人发展的通信数学理论,特别是香农提出的更明确的工程理论,尽管在表面上只适用于层面A的问题,实际上对层面B和层面C问题也有帮助和提示。

     然后,我们再看看在叙述这个数学理论的本文第二部分中,该理论提出了什么概念,得到了什么结果。现在这个总结性的部分的目的是回顾这个情况,并且看看在什么程度上和在什么措辞下,之前的章节认为层面A的进展也能对层面B和层面C有贡献这个观点是正确的,认为三个层面的相互关系是如此重要以至于我们的最终结论可能是三个层面的划分是真正人为的和不合需要的的观点是正确的。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-2 15:55:49 |显示全部楼层
3.2        层面A的理论的普遍性

     第一个显而易见的评论,而且真正地承载了论断的主要重担的评论,是这个数学理论在应用范围上是非常地普适,在处理的问题上非常地基础,在它达成的结论上具有经典的简洁性和力量。

     这是一个适用性如此广的理论,以至于人们不需要说处理的是什么种类的符号——不管是书面字母或单词,或者音符,或者口头语言,或者和声音乐,或者图像。这个理论足够深刻,因此它揭示的这些关系不加区别地适用于所有这些和其它形式的通信。当然,这意味着,这个理论是重复地和有想象力地具有积极的活力,以至于它在处理通信问题的真正核心——处理那些表现得具有普遍性的基本关系,不管在实际应用中使用什么特殊形式。

     作为这种普适性的证明,这个理论为密码学——当然,密码学就是编码的一种形式——作出了重要贡献,并且事实上就是密码学的基础理论。类似地,这个理论为解决将一种语言翻译为另一种语言的问题作出了重要贡献,尽管在这里,很明显完整的故事需要考虑到意思(meaning),就像信息一样。类似地,在这项工作中发展出来的想法与伟大计算机的逻辑设计问题有着如此密切的联系,以至于毫不奇怪,香农曾经写了一篇论文,阐述了如何设计一个能够熟练地下棋的计算机。而且,这与当前的争论,即这篇论文以这样的评论——人们或者必须说这样的计算机在思考,或者人们必须在本质上修改“思考”这个动词的传统含义——来结尾,有着进一步的直接相关性。

     第二,看上去很清楚的是,为借助于对现有理论的基础的规范化而产生的任何可能的通用通信理论作的一个重要贡献已经产生。最初,看起来用图表示一个通信系统时,正如这个理论在其开始的时候做的那样,是很清楚的;但是,由于当人们看到这个观点怎样顺利和普遍地指向焦点事物而被说服时,这种情况的崩溃一定是深刻地可觉察的和恰当的。几乎可以确定是正确的是,考虑层面B和层面C的通信问题时需要在前面的原理示意图中加些东西,但是看起来很可能需要的只是略微的增加,而不是真正的修正。

     这样,当人们转向层面B和层面C时,考虑接收者的统计特征也许可以被证明是必要的。人们可以想象,作为示意图的补充,另一个贴有“语义接收器”标签的方框被插在“工程接收器(它将信号转化成消息)”和接收者之间。这个语义接收器让消息经历第二次解码,其需求是必须将消息的统计语义特征与接收者全体——或者系统希望去影响的接收者中构成倾听功能的子集——的统计语义能力相匹配。

     同样人们能够想象示意图中的另一个方框,被插在信息源和发射器之间,将被贴上“语义噪声”的标签,而之前简单地被标为“噪声”的方框现在将被标为“工程噪声”。通过这个方框,信号被强行加入了意思(meaning)的扰动和失真——这不是信息源期望的,但这不可避免地会影响接收者。同时,语义解码问题必须考虑到语义噪声。也有可能的是,考虑调整初始消息,以便消息意思加上语义噪声的和等于接收者需要的总的消息意思。

     第三,对所有层面的问题有着很大启发性的是,不管有多好的编码,当人们试图在信道里塞入太多的东西时(比如H>C),错误和混乱增加,而保真度下降。这里再次有一个通用的适用于所有层面的理论,不仅仅考虑到信道的容量,而且(对文字也是如此)考虑到接收者的容量。如果试图将接收者的容量塞得过满,很可能,借助直接的类比,你不会先将接收者填满,然后仅仅是剩余的部分溢出浪费。更可能的是,同样使用直接的类比,如果试图将接收者的容量塞得过满,你促使了一个普遍和不可避免的错误和混乱的产生。

     第四,很难相信,层面B和层面C不会从基于熵概念(与信息的概念相关)的理论的发展中学到很多,或者以其为准则为它们的问题找到方法。

使用道具 举报

军衔等级:

  四级通信军士

注册时间:
2013-5-27
发表于 2017-2-2 17:33:56 |显示全部楼层
     这个理论中发展出来的信息概念起初看上去匪夷所思和令人失望——令人失望是因为它与意思无关,匪夷所思是因为它处理的不是单个消息,而是处理所有消息的全体的统计特征,匪夷所思还因为在这些统计术语中,信息和不确定性这两个单词发现它俩是兄弟。

     然而,我认为,这些仅仅是暂时的反应;同时人们应该说,在这里所做的分析已经如此深入地澄清了事实之后,人们现在应该第一次准备好迎接一个有关意思(meaning)的真正理论。一个工程通信理论就像一个非常正派和谨慎的收下你的电报的女孩,她不关心电报的意思,不管它是悲伤、快乐还是尴尬。但是她一定准备好处理所有到她桌上的东西。那种通信系统应该试图处理所有可能的消息,并且聪明的尝试方法是针对源的统计特征作基础的设计的想法,就一般的意义来讲,对通信的确不是没有意义。语言必须设计或者发展一种人们也许愿意说的面向事物整体的视野;但尽管不能够完成一切,它也应该尽可能经常和尽可能好地做到这些。也就是说,它也应该统计地处理它的任务。

     与一个源相关的信息的概念直接导致,就像我们已经看到的那样,对语言的统计结构的研究;而且作为一个例子,这种研究揭示出英语的信息对语言和通信的每个阶段的学生都有确实的意义。在语义研究中使用涉及马尔科夫过程的强有力理论的想法似乎特别有前途,因为这个理论特别适合于处理意思(meaning)的一个最有意义但也是最困难的方面,也就是上下文的影响。人们有一种模糊的感觉,即信息和意思可能被证明是类似量子理论中的一对正则共轭参数,即它们受制于一些联合限制,使人们坚持多了解一个参数时,减少了解另一个参数的机会。

     或者也许意思可能被显示为类似于热力学系统的熵所依赖的一个参量。在这个理论中熵的出现,就像我们前面提到的那样,是非常有趣和有意义的。在这个联系中已经引用过Eddington的话,但是《物理世界的本质》中还有一段话看起来特别恰当和有启发:

     “假设我们被要求将下面这些分成两类——距离、质量、电力、熵、美、旋律。

     我认为有最有力的理由将熵与美和旋律放在一起,而不是前面三个。熵只有在部分被认为是相互关联时才会出现,并且只有通过看到或者听到部分是相互关联时,美和旋律才被识别。这三个东西都属于编排的特征。这三种关联中的一个可以被认为是科学的一个基本参量是一个富有意义的想法。为什么这个陌生者能让自己居于物理世界的原住民之列,因为它能够说它们的语言,即算术的语言。”

     我确信Eddington会愿意将意思(meaning)与美和旋律归为一类;并且我猜测他将会非常兴奋地看到,在这个理论中,熵不仅仅说算术语言;它还说语言的语言。

(全文完)
已有 1 人评分经验 家园币 收起 理由
家园副管06 + 50 + 50 感谢分享!

总评分: 经验 + 50  家园币 + 50   查看全部评分

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

Archiver|手机版|C114 ( 沪ICP备12002291号 )|联系我们 |网站地图  

GMT+8, 2017-4-29 02:00 , Processed in 0.067942 second(s), 18 queries , Gzip On.

Copyright © 1999-2017 C114 All Rights Reserved

Discuz Licensed

回顶部