高斯混合模型ppt

简介 相关

截图

高斯混合模型ppt

简介

这是高斯混合模型ppt,包括了K-MEANS算法流程,二元变量,初始聚类中心的选取,迭代终止条件,高斯混合模型GMM(Gaussian Mixture Model)等内容,欢迎点击下载。

高斯混合模型ppt是由红软PPT免费下载网推荐的一款课件PPT类型的PowerPoint.

K-MEANS与 高斯混合模型 李翔 2013年7月15日 K-MEANS算法流程 从样本选K个对象作为初始聚类的中心 根据样本与聚类中心的相异度判断每个样本属于哪个簇 每个簇中重新计算聚类中心 重复2、3步骤直到聚类不再变化 标量: 闵可夫斯基距离: 曼哈顿距离: 欧几里得距离: 对于每个样本,计算出它与每个样本中心的距离,距离最小的样本中心则视为相异度最低,则该样本属于该样本中心对应的簇,从而可以计算出每个样本都属于哪个簇。 二元变量: 取值不同的同位属性数/单个元素的属性位数 二元变量是只能取0和1两种值变量,例如X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1},可以看到,两个元素第2、3、5、7和8个属性取值相同,而第1、4和6个取值不同,那么相异度可以标识为3/8=0.375 向量: (相似度) 在每个簇中重新计算聚类中心: 将同一个簇的样本的每个属性求平均值,从而计算出每个簇的聚类中心。此处可以生成新的K个聚类中心,用于下次计算样本属于的类别。 例如:簇中有点(1,2,3) (4,5,6)。聚类中心就为(2.5,3.5,4.5) 迭代终止条件 1、 重复迭代直到聚类中心不再变化或者变化很小 准则函数: 每一个样本点到其聚类中心点的平方和,K-MEANS要将J函数调整到最小。当J函数前后相差小于一个阈值的时候即可以终止迭代。 若单一定义让聚类中心不再变化则停止迭代,可能会存在问题。因为某一点不一定百分之百属于某个聚类。 演示K-MEANS-TEST2 2、达到迭代最大步数 Opencv的函数cvKMeans2中变量CvTermCriteria可设置两个迭代终止条件 高斯混合模型GMM(Gaussian Mixture Model) 可以看出K-MEANS是简单的,因为它基于假设即一个点仅以1或者0的概率属于某一聚类,这两者中间的取值没有考虑,将一个可以无穷取值的模型进化到了两个值,显然变得不那么复杂了,那么如果想要考虑到中间的值呢?即一个点仅以某一个概率属于某一类呢? 既然考虑到概率,那么与K-MEANS的数学基础便是完全不同的,即并没有直接考虑欧氏距离的问题。此处就可以用高斯混合模型和E-M算法进行解决。 高斯混合模型GMM(Gaussian Mixture Model) 高斯分布(正态分布): x是d维列向量,u是期望,Σ是方差 高斯混合模型: 高斯混合模型由K个单高斯生成,每个高斯模型为一个Component。首先随机地在这  个 Component 之中选一个,每个 Component 被选中的概率为 选中了Component后,再考虑从这个Component中选取某一个点。 GMM与聚类的关系 K是事先确定好的值,每个component就是一个聚类中心,即在只有样本点,不知道样本分类(含有隐含变量)的情况下,计算出模型参数(π,u和Σ) 我们就需要确定 π、u 和Σ  这些参数。 找到这样一组参数,它所确定的概率分布生成这些给定的数据点的概率最大 假设我们有一个训练集x(1),…,x(m),数据服从 Mixture Gaussian Distribution ,即把数据看作是从许多个 Gaussian Distribution 中生成出来的。具体就是建立联合分布: z(i) 满足多项分布 , z(i) 即为上式中的 ,即每个 Component 被选中的概率[ ϕj即p(z(i)=j)]。 ,k为开始就确定好的k个Component 1、首先选取一个Component,概率 2、在这个Component中的x(i)属于高斯分布 注意:此处的z(i)都是未知的 现在,我们要确定Φ,μ,Σ,使生成x(i)这些数据点的概率最大,这里用到了最大似然估计法。 似然函数: (θ可看做未知数Φ,μ,Σ的集合,N即 文中的m) 取对数 此处则转化为模型:求Φ,μ,Σ使的 l (Φ,μ,Σ)的值最大。 无法直接求导取0,然后求最大值。所以此处用到E-M算法。 E步:估计数据由每个 Component 生成的概率(并不是每个 Component 被选中的概率):对于每个x(i)数据 来说,它由第 j个 Component 生成的概率为(贝叶斯公式): 由于式子里的   和 也是需要我们估计的值,我们采用迭代法,在计算   的时候我们假定    和    均已知,我们将取上一次迭代所得的值(或者初始值)。 问题:初始值怎么定的? M步:估计每个 Component 的参数:现在我们假设上一步中得到的 就是正确的“数据x(i)由 Component k生成的概率”。由于每个 Component 都是一个标准的 Gaussian 分布,可以很容易分布求出最大似然所对应的参数值: 循环进行EM步,直到似然函数收敛。一种收敛方法是不再变化,还有一种就是变化幅度很小 J4Z红软基地

展开

同类推荐

热门PPT

相关PPT