当前位置:首页 > 论文检测>>文章详情

论文抄袭检测的指标体系

来源:网络  作者:Admin  发布日期:2017-03-29 03:39:33

 

[提要] 论文抄袭检测的指标体系 学术不端行为检测系统采用的指标体系分为两个部分: …
总检测指标
学位论文一般文献篇幅较大,字数多,硕士论文一般为3~5 万字,博士论文则多达十多万字。因此,为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系:
l 总重合字数
l 总文字复制比
l 总文字数
l 疑似章节数)
l 总章节数
l 首部重合文字数l 尾部重合文字数上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况。下面对上述指标分别进行说明。

总重合字数
学位论文一般篇幅大,少则3~5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。如图6所示:

总文字复制比
总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。

总文字数
总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。
疑似章节数(QCA)、总章节数(TCA)
疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一段落为一章节)。
首部重合文字数(HCCA)、尾部重合文字数(ECCA)
首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。

子检测指标
对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:
l 文字复制比(TR)
l 重合字数(CNW)
l 最大段长(LPL)
l 平均段长(APL)
l 段落数(PN)
l 段文字比(PR)
l 首部复制比(HR)
l 尾部复制比(ER)
l 引用复制比(RR)*
上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。下面对各项指标分别进行说明。

重合字数(CNW)
重合字数指学位论文该章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分。

知网CNKI论文检测万方维普期刊论文查重网 www.899365.com