面向动态历时语料库中英自然语言分析系统文献综述

 2022-09-21 10:09

文献综述(或调研报告):

1.前言

自动分词的一个重要前提是:至少要在计算的意义上清楚界定真实文本中每个词语的边界。自动分词是大部分中文信息处理系统的第一步(即前端),是对句子实施句法语义分析的前提。也就是说,自动分词所依据的只能是文本的表层信息。所以,尽管人在识别句子中的词语时是以理解为基础的,然而从实用的角度考虑,计算机自动分词系统不可能完全照搬人类的分词模式,而通常会选择“先分词后理解”的处理策略。

2.发展状况

目前的分词算法可以归纳为: 词典分词方法、理解分词方法、统计分词方法

⑴词典分词方法

词典分词方法按照一定策略将待分析 汉字串与词典中的词条进行匹配,若在词典中找到某 个字符串,则匹配成功,该方法需要确定三个要素: 词 典、扫描方向、匹配原则。比较成熟的几种词典分词方法有: 正向最大匹配法、逆向最大匹配法、双向最大匹 配法、最少切分等。实际分词系统,都是把词典分词作为一种初分手段,再通过各种其他的语言信息进一步 提高切分的准确率。

⑵理解分词方法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。