信号处理与信息推断·
期末70% 平时不会连续三节课点名
课程大纲·
一、背景知识·
1.1 信息推断·
定义:从观察到的现象,推测出现象背后隐藏的信息
信息推断是⼀个逆过程·
黑白推断和概率思维·
⿊⽩思维:⼀件事情背后的可能原因只有⼀个,并且就是我说的那⼀个
问题:一元论,证据无用(一开始的结论就是最后的结论),⽆法接收新信息
概率思维:
- 看到了⼀个现象;
- 尽可能找到这件事情背后所有可能的原因;
- 尽可能收集所有的相关证据;
- 根据证据,给每⼀个可能的原因⼀个概率。那个概率最⼤的,作为最终的原因。
好处:认知随着事实的改变⽽改变,信息量更大,不会遗漏可能的原因
概率思维的一种方式:最大似然估计·
观察到现象推测背后的原因:
- 列举所有可能的原因;
- 找出每⼀个原因产⽣该现象的概率;
- 选择那个概率最⼤的(也就是最有可能产⽣该现象的原因)做为最终的结论。
按照似然概率进行排序选择概率最大的 即 $P(观测的现象|原因i)$
例子·
挑选西瓜·
观测的现象:听见了“嘭嘭嘭”的声音
可能的原因:(1) 西瓜没熟,(2) 西瓜刚好熟,(3) 西瓜熟过了
其中当西瓜刚好的时候出现这个声音的概率最大,因此选择(2)作为估计的原因
飞机颠簸·
现象:飞机剧烈颠簸
原因:(1)飞机出事了;(2)飞机很安全,只是遇见气流而已。
飞机出事时一定会有颠簸,但遇见七六不一定会剧烈颠簸,因此选择(1),即飞机出事了!
血液病检查结果为阳性·
现象:检查结果为阳性
原因:(1)得病了;(2)没得病,仪器误报
假设仪器精度很高(100 %检出率,1%误报率)
那么认为得病了
学计算机的比学经济的有更大概率不修边幅??·
她该拒绝找好的工作吗 习题·
- 一个大城市的电影学院毕业的学生,参加海选试镜。
- 在等结果时,她面试了一家很好的公司并且幸运通过了。
- 她收到了电影公司的邮件通知。上面写着:“恭喜你,你通过 了!”
- 电影公司的第二封邮件:“非常抱歉,我们已经将结果通知了所有参加试镜的人员,但是有 1% 的通知书是错误的”。
- 她应该推掉这份工作吗?
解答·
- 现象:“收到了试镜通过”
- 背后的原因: (1) 通过了试镜,(2) 未通过试镜,公司发错 了。
- 在原因1前提下,有 99% 的可能性拿到该通知书。原因2的前提下, 1% 拿到了通知书。
- 也就是说,第一个原因导致“拿到试镜合格通知书”这个事实的概率,要远远 大于第二个原因。
- 她拒绝了公司的工作。
二、贝叶斯的定义和理解·
最大似然估计忽略了⼀个因素:不同的原因本身发⽣的概率是不同的。
引申出图解法
基本公式·
$P(A|B)=\frac {P(B|A)P(A)} {P(B)}$
$P(原因i|观测的现象)=\frac {P(观测的现象|原因i)P(原因i)} {P(观测的现象)}$
解释·
$P(观测的现象|原因i)$ :似然概率 解释力度
$P(观测的现象)$:该观测现象总体发生的概率
$P(原因i)$:先验概率,观测现象之前,对于原因i本身成立的概率的估计
后验概率 = 先验概率 · 标准化后的似然概率
例子·
飞机颠簸·
原因1:飞机出事
先验概率:$2.23\times 10^{-7}$
似然概率:1
原因2:遇见气流
先验概率:P(遇见气流)=0.9
似然概率:P(剧烈颠簸|遇见气流)=0.1
前者的后验概率显然小于后者
药检阳性·
原因1:真的患病了
先验概率:0.0001
似然概率:1
原因2:没患病但误检了
先验概率:0.9999
似然概率:0.001
后验概率0.0001<0.001
贝叶斯定理与奥卡姆剃刀·
如非必需,勿增实体(More things should not be used than are necessary)
类似思想·
关于一个现象,有许多理论都可以做出同样准确的解释,则应该挑选其中使用假定最少的
最简单的原因:其实也是先验概率最大的原因
例子·
树倒了:容易推测是风吹倒了而不是陨石坠落
医生诊断:流鼻涕最可能推断成普遍疾病比如感冒而不是罕见病
医学院学生被告诫:当你听到马蹄声的时候,要想到马,而不是斑马
关于金属燃烧质量增加:燃素说(神秘的负能量)和氧化说
地心说和日心说:前者需要画40-60个小圆套大圆,后者只需要8-10个圆
三、贝叶斯的两个要素·
3.1 先验概率·
先验概率是拿到证据前对该原因发生概率的判断,很多场合重要性超过似然概率
例子:扑点球 现场假动作太多,且速度太快来不及推测射门方向,还不如根据射门的球员的历史特点进行先验概率预测
贝叶斯与外部视角·
外部视角得到先验概率,内部视角得到似然概率
有时候外部视角得到信息,就比较接近真实的后验概率
内部视角例子·
董明珠做格力手机,认为内部条件满足,但没考虑倒市场竞争和其他巨头
规划谬误:一个完全不切实际的计划
哈佛教授/美国前财政部长萨摩斯对雇员给出的某个任务完成的时间的估计进行调整:
雇员的估计时间乘以2,再用更高一级的时间单位表示,预估1小时,调整为2天,预估1天,调整为2周
用外部视角看问题·
Bent Flyvbjerg提出的外部视角解决问题方法:
- 识别对应参考类别
- 获取参考类别统计数据,做出基准预测
- 如果有特别原因说明这个项目比同类项目乐观偏差更为明显,可使用此例的具体信息对基准预测进行调整
需要克服思维陷阱:绝大多数下标准化的似然概率=1,即和大部分人并没有什么不同
锚定效应·
人们对某个事件做定量估测时,会将某些特定数值作为起始值,这个值像锚一样制约着最后的估测值,从而导致做决策时会不自觉给予最初获得的信息过多的重视。
例子·
电商平台的划掉的价格虚高
房地产销售先带客户看贵的房子,再看便宜的
黑珍珠为啥值钱?最开始卖不掉,之后放在珠宝店橱窗展示,最终价格媲美钻石
锚定效应其实对应于贝叶斯的先验概率,商家通过一些小技巧改变先验概率,从而对物品价格产生偏差
贝叶斯与汉隆剃刀·
汉隆剃刀:能用愚蠢解释的,不要解释为恶意
愚蠢:无知的,偶然的,非故意的原因。忘了,错了,误会了,累了
恶意:有针对性地,刻意针对自己的谋划
贝叶斯解释·
愚蠢和恶意的解释力度都很强,似然概率相当,因此主要看先验概率
而愚蠢是大概率事件,恶意是小概率事件,因此尽量用愚蠢解释
汉隆剃刀的推广·
能解释为愚蠢的,不要解释为恶意——原定理
能解释为无知的,不要解释为愚蠢——不知道某个定理可能只是没学过,和智商不一定有关系
能解释为可原谅的错误的,不要解释为无知——手艺活做错了一点
能用未知的其他原因解释的,不要解释为错误
能用一群人在复杂系统中的互动解释的,不要解释为恶意或愚蠢
能解释为情绪的,不要解释为策略
3.2 观测·
如何求先验概率?
方法1:根据当前对象的历史记录得到先验概率·
例子:莱曼扑点球
很多时候没办法拿到一个对象的历史统计
方法2:将当前特定的对象扩展到同类对象,根据同类对象历史统计数据找到先验概率·
火柴:只需要测试火柴盒里的几根火柴能否用就可以大概判断这个盒子里的火柴能不能用
观测的信息量·
信息量=出乎意料的程度
改变认知越大,越出乎意料,信息量就越大
$P(H_i|A)=P(H_i)\times\frac {P(A|H_i)} {P(A)}$
先验概率是拿到观测 $A$ 之前对原因 $H_i$ 的认知,后验概率是拿到该观测后对原因 $H_i$ 的认知
后验概率在先验概率基础上,用当前观测做出了调整
如果先验概率调整幅度很大,则先验概率和后验概率差距大,则观测的信息量大,因为改变了对 $H_i$ 的认知
信息量大小体现在似然概率中
信息量大小的具体情况·
情况1:$H_i$ 完全不能解释 $A$,即$P(A|H_i)\approx0$
情况2:除了 $H_i$ 之外其他原因都不能解释 $A$ 即 $P(A|H_j)\approx0(j\neq i)$
情况2也是排他性证据,即信息量大,即实锤
当所有的原因解释力度差不多时,$P(A|H_1)\approx P(A|H_2)\approx…\approx P(A|H_n)\approx \alpha$
此时$P(H_i|A)=P(H_i)\frac {P(A|H_i)}{P(A)}=\frac {P(H_i)}{P(H_1)+…+P(H_n)}=P(H_i)$
成功学底层逻辑·
成功学人士共有特点当作观测A。成功当做原因H,所以$P(A|H)$很高
虚伪论断:$P(A|H)$很高则$P(H|A)$很高
没有考虑失败者的特点
$P(H|A)=\frac {P(H)P(A|H)}{P(A|H)P(H)+P(A| \overline H)P(\overline H)}$
必须要$P(A|\overline H)$也很小才行
真正的成功学应该是挖掘成功者具备但失败者不具备的特点
信息量大的观测具有排他性
解释之易和排他性之难·
能被一个观点解释的证据非常容易,但是价值不大
只能用一观点来解释的排他性证据价值极大,但很难找到
人们往往高估了解释的难度,低估了找到排他性证据的难度
改变观念为什么这么难?·
如果对某个对象已经有了比较笃定的认识,要扭转观念很难
- 人会主动收集加强其观念的证据,并裁剪
- 因为之前认知过于笃定,这些新证据很难改变认知
改变幅度 $\frac {P(A|H)} {P(A)} = \frac 1 {1-(1-P(H))(1-R)}$
$R=\frac {P(A|\overline H)} {P(A|H)}$ 观测A在 $\overline H$ 和 $H$ 下的似然比
$R<1$ 时,$H$更能解释观测A(后验概率大于先验概率)
$R\approx 1$ 时,$\overline H$ 和 $H$ 观测力度相当(后验概率不变)
$R>1$ 时,$\overline H$ 更能解释观测A(后验概率小于先验概率)
$1-P(H)$ 是调节器,如果开始很小,那么A所起的提升作用大大削弱
启发1·
不要完全笃定之前的认知,至少给认知相反的其他认知一些可能性
启发2·
接受不支持认知的证据,并让他们来改变原有的认知,让你的认知观点随着新的证据发生改变
成长型思维
巴纳姆效应·
每个人都会很容易相信一个笼统的,一般性的人格描述特别适合自己,即使这个描述很空洞。仍然认为反映了自己的人格面貌,哪怕自己根本不是这种人
星座学,算命先生
这些性格描述排他性很小,适合很多人
四、多个观测下的贝叶斯·
4.1 基础篇·
条件独立·
事件A与事件B关于事件C独立,则$P(A,B|C)=P(A|C)*P(B|C)$
即,事件C成立的前提下,A和B同时出现的概率等于在C成立前提下A发生的概率乘以C成立前提下B发生的概率
也可以更好地理解为:$P(A|B,C)=P(A|C)$ $P(B|A,C)=P(B|C)$
一旦C发生了,A(B)是否发生这个信息对于判断B(A)是否发生没有作用
很多事件看似相关,实则条件独立
ABC理论·
graph LR A-->B B-->C
情绪ABC理论由Albert Ellis提出的情绪调节法
- A代表激发时间
- B代表信念
- C代表结果
事物对于我们而言所具有的意义,让我们感到幸福或者不幸,不是由它们本来的面貌决定,而是取决于我们如何看待它们
比如:成绩 心态 反应
很多时候,两个事件从统计意义上相关,但它们都是关于背后的另一个事件条件独立
多个观测下的贝叶斯定理·
现实中,人们往往会通过多个观测进行推断
$P(H_i|A_1,A_2,…,A_n)=P(H_i)*\frac {P(A_1,…,A_n|H_i)} {P(A_1,…,A_n)}=\frac {P(原因i)*P(观测1,观测2,…,观测N|原因i)} {P(观测1,…,观测N)}$
若两个观测在 $H_1,H_2,…,H_n$ 下都条件独立,则$P(A_1,A_2)=\sum_{k=1}^nP(A_1|H_k)P(A_2|H_k)P(H_k)$
$P(H_i|A_1,A_2)=P(H_i)*\frac {P(A_1|H_i)*P(A_2|H_i)} {\sum_{k=1}^nP(A_1|H_k)P(A_2|H_k)P(H_k)}$
大部分都只能假设是条件独立
一般不存在独立
4.2 进阶篇·
多个观测按照时间顺序先后到来,希望来一个预测就根据迄今为止的所有观测得到一个估计
每次都计算现有的所有观测开销较大,更合适的是每次在之前的后验概率基础上,用最新的观测进行更新,即在线贝叶斯
用新的观测来更新旧的后验概率=用所有的观测重新计算后验概率
三个观测的迭代形式·
一般情况下的迭代形式·
在某⼀个时刻基于包括当前以及所有的历史信息得到的后验概率,都是下⼀个时刻的先验概率。
先验概率,是对所有历史积累信息的沉淀和总结。
在线贝叶斯的启发1 在线算法vs离线算法·
在线算法(ONLINE ALGORITHMS)—流式算法 (stream algorithms)·
最初时刻,根据最初的一个或几个数据得到一个初步结果
每次来一个数据,用这个新的数据更新上一次的结果
这个更新的结果和用此前的所有数据得到的结果一致
离线算法(OFF-LINE ALGORITHMS)—batch algorithm·
对于新来的数据,总是把他加到前面的数据重新计算得到结果
最大区别在于是否要重新全部计算,还是只需要在原有基础上更新
在线算法优势:即时反馈,计算量小,存储量小
在线贝叶斯的启发2 精益求精 V.S. 步步为营·
精益求精:一开始不追求完美,先得到一个结果,之后不断接收新信息对原结果进行改进,达到最优的目标,和在线算法类似
步步为营:每一步都要得到一个正确结果,最后一步之前不知道正确答案
敏捷模型—精益求精,不断完善MVP
瀑布模型—步步为营
在线贝叶斯的启发3 观点随着事实的改变而改变·
狼来了
总结·
- 在线贝叶斯所揭示出来的另外⼀个核⼼思想,就是观点要随着事实的改变⽽改变。
- 在很多情况下,初始的先验概率并不那么重要。只要我们能够不断的通过新的证据去调整自己的认知,最终也能够有正确的认识。
- 在证据比较少的时候要保持谨慎,切忌根据少量证据来盖棺定论。让子弹飞一会儿
4.3 高级篇·
实际中的问题·
养狗的例子·
有⼀家⼈ 5 ⼝⼈,⽗亲 35 岁,⺟亲 30 岁,⼩孩⼦6 岁刚上⼩学,⼩孩的姥姥姥爷帮忙照顾⼩孩,他们住北京海淀区世纪城⼩区⾥。请问,这家养狗的概率是多少?
梳理现象·
贝叶斯计算所需概率不知道
解决问题思路·
所有观测分为两组,一组放在先验概率中,另外一组放在似然概率
统计数据找到先验概率,并忽略似然概率
关键词·
分组核心原则·
先验好估计:$P(Hi|A)$ 的统计数据很容易拿到
尽可能将信息量大的观测放在集合A中
在能找到统计数据的前提下,尽量把信息量⼤的观测放⼊先验概率中
两个观测的贝叶斯定理解决问题·
数学推导·
目标·
情况1·
当$A_1$强烈支持某个假设,但$A_2$并不排斥这个假设时,应该把$A_1$放入先验概率,把$A_2$放入似然概率
情况2·
当$A_1$强烈反对某个假设,但$A_2$并不排斥这个假设时,应该把$A_1$放入先验概率,把$A_2$放入似然概率
情况1和2都说明如果某个观测有旗帜鲜明的立场(强烈支持或反对某个假设),而另一个观测则处于和稀泥的状态,则应该坚决的将前一个观测放入先验中
情况3·
非排他性证据,应该放入似然概率
总结·
信息量也就是排他性,信息量大的观测会强力的支持或反对某个原因,应该放入先验概率
信息量很小的观测,应该放入似然概率中忽略掉
例子1-飞机颠簸·
两种划分方式·
分层描述法·
多个观测时(超过2个),常常出现找不到相关数据的情况,原因是符合观测集的样本数量太少。
两种方式扩大样本数量
- 降低观测数量
- 增大颗粒度
分层描述法:围绕被观测的对象,在不同的颗粒度上将该对象的所有信息展现出来