利用中文分词探索人民日报高频词变迁文献综述

 2023-05-10 04:05

文献综述

单词是语言中重要的基本元素。

一个单词可以代表一个信息单元,有着指代名称、功能、动作、性质等作用。

在语言的进化史中,不断有新的单词涌现,也有许多单词随着时代的变迁而边缘化直至消失。

根据统计,《汉语词典》中包含的汉语单词数目在37万左右,《牛津英语词典》中的词汇约有17万。

理解单词对于分析语言结构和语义具有重要的作用。

因此,在机器阅读理解算法中,模型通常需要首先对语句和文本进行单词分拆和解析。

分词(tokenization)的任务是将文本以单词为基本单元进行划分。

由于许多词语存在词型的重叠,以及组合词的运用,解决歧义性是分词任务中的一个挑战。

经过近30年的探究,中文分词从提出到现在,已经提出了很多方法,如规则分词、统计分词和混合分词。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。