欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    中文同义词自动抽取研究.ppt

    • 资源ID:2709229       资源大小:2.55MB        全文页数:27页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文同义词自动抽取研究.ppt

    中文同义词自动抽取研究,南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为 = 的词语集合表示的是同一个语义。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的词语集合。,目标词 “规则”对应的同义词集合:,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。 但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。 一个词语也可能出现在多个Synset中 。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。 基本思想: 在包含目标词的Synset中统计出典型同义词。 使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒, 喜欢 。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。 基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。 基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条 在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。 利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。 利用目标词和上下文环境模式提取同义词。,基于模式匹配的方法,人工模式提取 基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。,基于模式匹配的方法,自动模式获取 基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:,基于模式匹配的方法-规则过滤,由于网络资源存在不规范性,需要对获取到的同义词进行筛选。 筛选方法: 首先对获取到的同义词进行分词, 然后使用如下规则进行筛选: 规则1 若候选同义词是一个完整的分词结果,同义词有效。 规则2 若候选同义词分词结果中包含 共和国,市,州,镇,县,郡,帝国 中任一后缀,同义词有效。 规则3 若候选同义词分词结果是两个字数词性一致的词语,同义词有效。 规则4 若候选同义词分词结果包含目标词语,同义词无效。 上述四个规则,优先度依次递减。,基于模式匹配的方法-实验结果,对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。 基于词条概述能够获取到同义词的有815个目标词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于并列结构的方法-基本思想,并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用 “和,或,逗号,顿号”等并列连词进行连接。 假设并列结构包含的两个词语中一个是目标词,则另一个可以作为该目标词的候选同义词。 采用基于词素和知网的方法进行过滤,提高同义词抽取的正确性。,“责任感”与“责任心” “责任感”与“事业心”则不是。相同数为0。 文档 - 文件 - 档案 - 案例,基于并列结构的方法,基于并列结构的方法,基于并列结构的方法-实验结果,对于给定的9455个目标词,其中有2026个能够通过并列结构的方法获取到对应的同义词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词传递性扩充,对于获取到的同义词,可能有交叉现象。 例如: 然而并不是所有含有相同同义词的两个目标词都应该合并。 例如:,传递性验证规则,测评结果,谢谢!,

    注意事项

    本文(中文同义词自动抽取研究.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开