贝叶斯分类器(2)极大似然估计、MLE与MAP

贝叶斯分类器(2)极大似然估计、MLE与MAP,第1张

根据上一篇 贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然 ,我们对贝叶斯分类器所要解决的问题、问题的求解方法做了概述,将贝叶斯分类问题转化成了求解 的问题,并提出了第一个求解方法:极大似然估计,也对似然的概念做了一定的理解,在本篇中,我们来介绍极大似然估计的原理、使用方法及其与最大后验估计MAP的区别。

我们已经知道,似然即参数的似然,表示给定样本下,参数 为真值的可能性,所以,极大似然估计就是以最大化参数的似然值的方法来估计参数的真值的算法。

对于一批样本,共有M个属性值和N个类别,那么 就是一个M维向量,要求得 ,其实就是要求 ,因为对不同的类别 ,类条件概率 应该是不同的分布,所以应该有N个不同的分布假设和似然函数

我们按极大似然估计的步骤来看看怎样计算

对数得到对数似然函数,连乘转换为累加,求导之类的计算更加方便:

注意:

知乎上大神详细介绍了从散度的角度解读极大似然估计: 知乎 - 微调的回答 ,跟随大神的脚步学习一下(原回答了引入了期望,我觉得其实不用期望也没问题):

MLE的第一步是假设分布(或者已有一个分布),接下来就是通过最大化 发生的概率来求得分布参数,认为这就是最可能真实的分布,这个思路其实还是有一点绕的,凭什么说 发生的概率最大的参数就是真的参数呢?我们的目的是求出真实分布,最直观的思路应该是看我们 算出来的分布跟真实分布的相似程度 ,这刚好可以通过散度来解释。

这里的散度是机器学习的散度,也就是信息论中的散度,与物理上的散度不太一样。机器学习中我们常用的散度是KL散度(KL-Divergence)。信息论中, 可以理解为:用来衡量在同一份数据P下,使用P的编码方案和Q的编码方案的平均编码长度的差异,如果我们把真实的分布 和计算得到的分布 看做样本数据的编码方案,那么我们就可以用KL散度来计算两种分布之间的相似程度:

注意上面两个分布的顺序是不能变的,因为定义中的P必须是真实分布,数据就是由P产生的。我们的目标是人是让 最小,注意到式中 是定值,所以:

看上面的推导,再看看极大似然的公式:

是不是根本就是一样的?所以其实如果我们正向考虑极大似然估计,当模型是条件概率分布,损失函数是对数损失函数时,极大似然估计就是做 经验风险最小化 ;如果我们反过来考虑,即上面从散度推导的过程,MLE就是在寻找最接近真实分布的分布。

以上一篇提到的西瓜好坏分类为例:

西瓜数据集如下图:

显然样本共有 个属性值和 个类别,首先根据样本估计类先验概率 ,然后为每个属性估计条件概率 ,要求 ,应该假设两个六维概率分布,比如我们假设样本为6元正态分布:

均值向量 为6维向量,协方差矩阵 是一个66的正定矩阵。

然后分别写出似然函数的对数形式:

最后再求偏导解方程即可,多元正态分布求导计算还是挺复杂的,本篇主要讲极大似然估计,具体计算过程就不写了,大家明白是怎么做的就好。

讲完了极大似然估计的理论和 *** 作,再来看看它和一个跟它很像的算法最大后验估计MAP的关系。

极大似然估计MLE是频率学派的参数估计方法,最大后验估计MAP是贝叶斯学派的参数估计方法。因此,同样是参数估计的问题,MLE中参数是确定值,故定义为 ;MAP中参数是一个随机变量,故定义为 ,是一个后验概率,受到先验 和样本 的共同作用,这就是他们最本质的区别了,由此可得到其计算过程的区别:

极大似然估计MLE对参数 的估计是:

最大后验估计MAP对参数 的估计是:

我们发现原来MAP与MLE在计算上的不同就是多了一个先验概率项,因此如果有一个合理的先验的话,MAP会比MLE对样本数据的依赖更小一些,如果数据量很大的话他们基本就是一样的了,以我们上一篇中的抛硬币例子来说:

如果按极大似然估计计算,取对数求导后计算得到 ,这似乎不太符合我们的常识,如果是用MAP呢?对抛硬币问题,我们先验是 (注意MAP中的 是随机变量,先验是一个分布,不能是一个数值哦,如果给一个数值的话,样本就不起作用了),因此:

正态分布的概率密度函数:

因此:

在MAP中使用一个高斯分布的先验的效果就类似于在MLE中采用L2正则,相当于 结构风险最小化 ,可以说,当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验估计。

回到 的计算上来, 进行取对数、求导,可得 ,结果受到了先验和样本共同的作用。

显然MAP的计算要麻烦的多,现实中很多问题都要比我们的例子复杂的多,其求解通常不会像我们的例子这样求导计算。

总结一下:

我们将贝叶斯分类器转化为了求解 的问题,使用极大似然估计是我们介绍的第一个求解方法,它还存在一些不足:

在下一篇中,我们来看看求解 问题的另一个方法:朴素贝叶斯。

主要参考资料

《机器学习》周志华

《统计学习方法》 李航

知乎 - 微调的回答

聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计

最大后验估计MAP

双变量回归模型的极大似然估计

极大似然法:在估计未知参数时使得观测到给定的这些 Y_i 的概率尽可能大。

在双变量模型中, Y_i 服从( \beta_1+\beta_2X_i,\sigma^2 )的正态分布,因此概率密度函数为:

由于 Y_i 之间相互独立,联合概率密度函数为:

若 Y_1,Y2,…,Y_n 为已知或给定,而参数和方差未知,则得到似然函数 LF :

通过对似然函数进行微分运算,最终可以得到参数的估计值。

具体推导过程可参见本文结尾附带的课本内容

对数似然函数(log likelihood function ,LLF):

因为涉及到的估计函数往往是是指数型族,取对数后不影响它的单调性,但会让计算过程变得简单,所以就采用了似然函数的对数,称“对数似然函数”。

根据涉及的模型不同,对数函数会不尽相同,但是原理是一样的,都是从因变量的密度函数的到来,并涉及到对随机干扰项分布的假设。

对数似然估计函数值:

对数似然估计函数值一般取负值,实际值(不是绝对值)越大越好。

1如果是离散分布,最后得到的似然函数值直接就是概率,取值区间为0-1,对数化之后的值就是负数了,如二元logit回归模型的似然函数为:

2如果是连续变量,因为概率密度函数的取值区间并不局限于0-1,所以最后得到的似然函数值不是概率而只是概率密度函数值,这样对数化之后的正负就不确定了。如本文的正态分布的似然函数为:(由于不是标准正态分布,因此 f(Y_i)>1 也存在)

3公式值的大小关键取之于残差平方和(以及样本容量),只有当残差平方和与样本容量的比之很小时,括号内的值才可能为负,从而公式值为正,这时说明参数拟合效度很高;反之公式值为负,但其绝对值越小表示残差平方和越小,因而参数拟合效度越高。

极大似然估计是一种参数估计的方法。

先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。

即它的核心思想是:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。

例如,当其他条件一样时,抽烟者患肺癌的概率是不抽烟者的 5 倍,那么当我们已知现在有个人是肺癌患者,问这个人是抽烟还是不抽烟?大多数人都会选择抽烟,因为这个答案是“最有可能”得到“肺癌”这样的结果。

当模型已定,但是参数未知时。

例如我们知道全国人民的身高服从正态分布,这样就可以通过采样,观察其结果,然后再用样本数据的结果推出正态分布的均值与方差的大概率值,就可以得到全国人民的身高分布的函数。

极大似然估计是频率学派最经典的方法之一,认为真实发生的结果的概率应该是最大的,那么相应的参数,也应该是能让这个状态发生的概率最大的参数。

假如一个罐子里有黑白两种颜色的球,数目和比例都不知道。

假设进行一百次有放回地随机采样,每次取一个球,有七十次是白球。

问题是要求得罐中白球和黑球的比例?

假设罐中白球的比例是 p,那么黑球的比例就是 1−p。

那么似然函数:

接下来对似然函数对数化:

然后求似然方程:

最后求得 p=07

资料:

http://blogcsdnnet/poi7777/article/details/23204789

http://blogcsdnnet/bitcarmanlee/article/details/52201858

http://blogcsdnnet/zouxy09/article/details/8537620

https://zhuanlanzhihucom/p/24423230

推荐阅读 历史技术博文链接汇总

http://wwwjianshucom/p/28f02bb59fe5

也许可以找到你想要的:

[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

离散型场合的似然函数 就是样本取给定的那组观测值的概率(可以由总体的分布列直接写出)。

连续型场合的似然函数就是样本的联合密度函数在给定的观测值(x_1,x_2,,x_n)处的表达式。

离散型场合:总体分布(实际上是分布列):f(x, a)(=P{X=x}),只不过与参数a有关。

样本取给定的那组观测值(x_1,x_2,,x_n)的概率。

P{(X_1,X_2,,X_n)=(x_1,x_2,,x_n)}=P{X_1=x_1,X_2=x_2,X_n=x_n}

=P{X_1=x_1}P{X_2=x_2}P{X_n=x_n}=f(x_1, a)f(x_2, a)f(x_n, a)(因为样本的分量与总体同分布)=L(x,a)(似然函数)

连续的就是联合密度利用独立性写成各分量密度的乘积。

扩展资料:

由于对数函数是单调递增的,而且对数似然函数在极大化求解时较为方便,所以对数似然函数常用在最大似然估计及相关领域中。例如:求解Gamma分布中参数的最大似然估计问题:

假定服从Gamma分布的随机变量  具有两个参数  和  ,考虑如下似然函数如果想从输出  中估计参数  ,直接求解上式的极大化未免有些难度。在取对数似然函数后,

再取关于  的偏导数等于0的解,最终获得  的最大似然估计

当存在一组独立同分布的样本  时,故而其中,  。 

参考资料:

——似然函数

二项分布就是n个两点分布,两点分布的概率是P=p^x(1-p)^(1-x),所以似然函数 L=p^∑Xi(1-p)^(n-∑Xi),构造 lnL=∑Xilnp+(n-∑Xi) ln(1-p),对p进行求导,令其结果等于0,就是∑Xi/p+(n-∑Xi)/(1-p)=0,通分后令分母等于0,可以得到p=(∑Xi)/n

求极大似然函数估计值的一般步骤:

(1) 写出似然函数;

(2) 对似然函数取对数,并整理;

(3) 求导数 ;

(4) 解似然方程 。

扩展资料:

极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。

——极大似然估计

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/langs/13492823.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2025-09-01
下一篇2025-09-01

发表评论

登录后才能评论

评论列表(0条)

    保存