南京大学论文ppt

简介 相关

截图

南京大学论文ppt

简介

这是南京大学论文ppt,包括了词性标注概述,隐马尔可夫模型概述,实验介绍,实验结果和分析,总结,HMM的两个假设,总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持等内容,欢迎点击下载。

南京大学论文ppt是由红软PPT免费下载网推荐的一款课件PPT类型的PowerPoint.

隐马尔可夫模型(HMM) 在中文词性标注中的应用研究 答辩人: 指导老师: 提 纲 词性标注概述 隐马尔可夫模型概述 实验介绍 实验结果和分析 总结 词性标注概述 词性标注的目标和过程 目标:为句子中的每个词都标上一个合适的词性 过程: 原文: 这件事情在理论界、经济界引起了很大反响。 分词后: 这 件 事情 在 理论界 、 经济界 引起 了 很 大 反响 。 词性标注: 这/r 件/q 事情/n 在/p 理论界/n 、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/w 词性标注中的信息源 邻接词的词性信息 词本身提供的信息 词性标注概述(cont.) 词性标注的主要方法 基于规则的方法(Rule-based) 基于统计的方法(Statistics-based) 基于转换的方法(Transformation-based) 词性标注准确率 训练数据量 标注集合 语料库差别 未登录词 隐马尔可夫模型(HMM)概述 HMM的两个假设: 有限视野假设 P(Ot+1=Sk|O1,…Ot)=P(Ot+1=Sk| Ot) 时间不变性假设 P(Ot+1=Sk|Ot) = P(O2=Sk|O1) 隐马尔可夫模型概述(cont.) HMM模型: λ=(A,B,π) S是状态集:S=(S1,S2,…SN) V是观察集:V=(V1,V2,…VM) 状态序列:Q = q1q2…qT (隐藏),观察序列:O=o1o2…oT(可见) A是状态转移概率分布:A=[aij], aij=P(qt=sj|qt-1=si) (满足假设1) B是观察值生成概率分布:B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (满足假设2) 初始观察值概率分布:π= [πi], πi =P(q1=si) 隐马尔可夫模型概述(cont..) 隐马尔可夫模型的基本问题 给定一个模型λ=(A,B,π),怎样有效的计算某个观测序列发生的概率,即P(O|λ)。(模型拟合程度) 给定观测序列O和模型λ,怎样选择一个状态序列q1q2…qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程) 给定观测序列O,以及通过改变模型λ=(A,B,π)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程) 隐马尔可夫模型概述(cont...) Viterbi算法: 实验介绍 实验语料库简介 人民日报标注语料库 199801~199806 共含有标注42个,单词130274个 实验建模 S:预先定义的词性标注集(42个标注) V:文本中的词汇(130274个词) A:词性之间的转移概率 B:某个词性生成某个词的概率 例,P(我|“代词”) π :初始概率 实验介绍(cont.) 模型训练 最大似然估计法 实验相关问题 数据稀疏问题 稀疏矩阵 未登录词和概率平滑 留出相应的概率空间 实验结果和分析 整体实验 用199801~199805作为训练语料库,标注199806的结果如下: 待标注总数:1,244,415 正确标注数:1,167,314 错误标注数:77,101 标注正确率:0.938042 未登录词数: 17,071 部分标注的结果: 标注 正确数 错误数 标注准确率 b 8568 675 0.92697 c 27530 1783 0.93917 d 51744 3048 0.94437 实验结果和分析(cont.) Ag 246 158 0.60891 an 2222 1142 0.66052 Dg 50 52 0.49020 e 18 8 0.69231 结论:训练库中标注出现次数对结果有很大影响 小样本实验 然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 实验结果和分析(cont..) 错误:“由于”的介词词性p错误标成了连词词性c。 分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下: w:-11.3986 w->p:-2.5839 w->c:-2.8842 w->d:-2.6353 p->由于:-5.3571 c->由于:-4.6158 d->由于:-11.7821 p:-19.3397 c:-18.8987 d:-25.8160 结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。 总 结 总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。 长距离依赖问题和偏置问题。 目前在研究中的最大熵隐马模型(MEMMs),条件随机场模型(CRFs)等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。 谢谢!DU0红软基地

展开

同类推荐

热门PPT

相关PPT