在线雷同检测系统的设计与实现文献综述

 2022-11-09 11:11
{title}{title}

文献综述:

对于雷同检测手段,已有多种研究与实践。大体分为适用于普通文本的雷同检测、适用于程序代码的雷同检测、适用于其他的雷同检测。

对于普通文本的检测,在2016年,张海腾等人在《电子作业相似性检测技术的研究与实现》中,提出了一种通过根据词频获得词语权值,并计算相似度的方式来检测雷同的方法,给出了电子作业相似性检测的工作流程与关键技术[1]。这种方法对于普通的雷同具有不错的效率,但这个方法并不将语义相似性纳入其中,即对同、近义词没有判断方式,当做两词处理。甘丽萍等人在《基于感知哈希的作业相似度检测》中,提出了用感知哈希算法,将作业以图片的形式进行抄袭检测[6]。该方法并非惯用的以文字形式,而是通过图片比对,提取特征,以此检测作业。这种算法拥有较低的复杂度,而细节性相对较差。王素红等人在《基于Hadoop的抄袭检测的源检索方法研究》中,提出了一种基于Hadoop的抄袭检测法[9]。该抄袭检测方法的特点是采用基于分布式计算的方式,将索引进行分片,部署到分布式集群中。而用户的查询也会划分为多个子查询,发送到各个子查询节点上。这个方法能够处理大规模备选文档数据集,具有良好的性能。王素红等人在《基于SVM的抄袭检测方法研究》中,提出了基于信息检索和支持向量机(SVM)进行抄袭检测[10]。该法存在一个参考文档集,将可疑文档与备选文档进行比对。那之后,依照某个特征评估函数,计算每个特征的分值,选取较高的作为特征向量。这个方法对多种抄袭方式都取得不错的性能,但SVM空间复杂度较大,影响其运行与扩展。谢松山与唐雁在《基于左归词频向量空间模型的中文文本抄袭检测算法》中,提出基于左归词频向量空间模型的中文文本抄袭检测算法[12]。该法利用左归处理随想,减少计算中需要统计的不同词汇数目,相似度计算则基于向量空间模型,有效降低时间复杂度。

而对于计算机程序的抄袭检测,王鹏在《计算机程序抄袭检测系统的设计方案》中,提出了一种检测计算机程序代码查重的手段,对计算机程序抄袭检测系统的设计方案进行了较详细的研究阐述[2]。与先前不同,这个用于计算机程序而非普通文本。作者考虑到计算机语言的性质,判断的标准是去除无用语句(如空格、回车)后取最长公共子序列的方式获得相似度值。不论什么程序,都会用到相同的保留字,取LCS而非词语频度,可以有效地避免误判。赖晓晨等人在《高校源程序型作业自动抄袭检测方法研究与实践》中给出了一种基于XML 的源程序型作业自动抄袭检测方法,可对经人为修改后的抄袭情况进行甄别,通过对比作业之间的相似度,从全部作业中识别出抄袭类型及每一个类型的抄袭实例,为教师作业批阅提供重要依据[3]。与上一个类似,这个也面向代码抄袭检测。这一方法的特色在于通过基于XML算法,对程序的结构进行记录,根据程序语句的性质而作为不同种类的节点进行记录。它分析了语句的语意,通过类似于编译原理的方式记录程序结构,从而有着相当高的精确度。田振洲等人在《软件抄袭检测研究综述》对软件抄袭检测的研究现状和进展进行综述。本文介绍了软件抄袭检测的意义与存在的难题,对现存抄袭检测技术进行分类,对多种检测技术进行分析比较,再介绍抄袭检测所面临的挑战与日后的研究方向[4]。王宁、利润东在《OnlineJudge中反抄袭机制的研究和实现》中,提出了适用于OnlineJudge(在线评判系统,OJ)的反抄袭机制[7]。该算法面对代码抄袭检测,在相似度检测上应用属性计数法与结构度量法进行测算,具有相当的准确度。杨超在《基于多种技术的混合式程序代码抄袭检测方法》中,设计了一种抄袭检测方法,通过比较两个程序代码的相似度来确定是否存在抄袭行为[11]。其相似度包括文本、结构与向量的相似度,计算出总相似度,避免了单一检测手段的片面性。朱波等人在《代码抄袭检测中串匹配算法的比较》中,将几种代码抄袭检测常用的串匹配算法进行比较研究[13]。研究表明,B-F与KMP算法因精确度要求高,适用范围较小。LCS是近似匹配,但对错位检测效率差。GST算法则基于无序匹配,检测效率高。李旭东在《计算机程序抄袭检测系统的设计方案》中,提出了一种计算机程序抄袭检测的方法[15]。将可疑集中的文档两两比对,计算相似度,将可疑度较高的文档展示给用户。该方法步骤简便,容易实现。

此外,还有一些面向其他方式的抄袭检测机制。常永虎等人在《基于考生在线行为的互抄袭作弊检测算法研究》中,提出了一种监测模型,用以自动检测学生考试行为,以制止作弊行为[5]。这个方法针对于选择题,将考生做题时间、做题顺序的时间相似度和答案相似度结合起来,计算学生的嫌疑值。杨芳在《学位论文不端行为检测系统实施效果研究——基于G大学的实证分析》中,以G大学为例,对师生进行调查、访谈,对学校检测系统进行综合评价[8]。表明检测系统应该人性化,支持多次提交修改;具有科学的评判机制,尤其避免单一评判机制造成误判和遗漏;以综合的手段治标治本,加强管理与教育,从根本上缓解抄袭现象。在《一种基于二叉树的数学公式抄袭检测算法》里,秦玉平等人提出了一种基于LaTeX格式数学公式抄袭检测算法[14]。通过二叉树处理文本中的数学公式,用叶节点表常量与变量,非叶子节点为运算符。随后进行归一化处理,建立数据表进行比对。这种算法对于数学表达式的抄袭检测准确率很高。

参考文献:

[1]张海腾,翟洁,冷春霞. 电子作业相似性检测技术的研究与实现[J]. 电子设计工程,2017,(19):43-45 49.

[2]王鹏. 计算机程序抄袭检测系统的设计方案[J]. 电子技术与软件工程,2017,(18):153.

[3]赖晓晨,王孝良,迟宗正,陈晟浩. 高校源程序型作业自动抄袭检测方法研究与实践[J]. 教育现代化,2017,(37):205-206.

[4]田振洲,刘烃,郑庆华,佟菲菲,吴定豪,朱森存,陈恺. 软件抄袭检测研究综述[J]. 信息安全学报,2016,(03):52-76.

[5]常永虎,罗旭,李虎阳. 基于考生在线行为的互抄袭作弊检测算法研究[J]. 重庆工商大学学报(自然科学版),2016,(03):51-55.

[6]干丽萍,许易,楼宋江,陈盈. 基于感知哈希的作业相似度检测[J]. 台州学院学报,2016,(03):10-14.

[7]王宁,李润东. OnlineJudge中反抄袭机制的研究和实现[J]. 湖南工程学院学报(自然科学版),2016,(01):45-48.

[8]杨芳. 学位论文不端行为检测系统实施效果研究——基于G大学的实证分析[J]. 教育现代化,2016,(01):54-58.

[9]王素红,宁慧,王明星,徐丽. 基于Hadoop的抄袭检测的源检索方法研究[J]. 应用科技,2015,(06):67-71.

[10]王素红,宁慧,杨松,徐丽. 基于SVM的抄袭检测方法研究[J]. 应用科技,2015,(05):51-54 60.

[11]杨超. 基于多种技术的混合式程序代码抄袭检测方法[J]. 计算机工程与应用,2016,(18):222-227.

[12]谢松山,唐雁. 基于左归词频向量空间模型的中文文本抄袭检测算法[J]. 西南大学学报(自然科学版),2015,(05):158-161.

[13]朱波,郑虹,孙琳琳. 代码抄袭检测中串匹配算法的比较[J]. 长春工业大学学报(自然科学版),2014,(06):672-676.

[14]秦玉平,唐亚伟,伦淑娴,王秀坤. 一种基于二叉树的数学公式抄袭检测算法[J]. 计算机工程与应用,2015,(01):257-260.

[15]李旭东. 计算机程序抄袭检测系统的设计方案[J]. 电脑知识与技术,2012,(04):799-800.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。