科研經驗
Crosscheck查重原理及算法
導讀:crosscheck(CrossCheckiThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過3…
crosscheck(CrossCheck iThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。后果還是很嚴重的。那crosscheck到底是如何進行判定的呢? 網上很多關于這些規則的說法,大部分是說連續六個單詞即判定重復,或者根據語言風格相似即判定重復。這些說法不夠準確,也沒有依據。 一篇被crosscheck處理的文章,這個軟件第一步應該做的是進行文本的格式化。說來也很合理。因為一篇文章中,除了單詞以外,還有大量的符號(標點符號,數學符號及特殊符號等)。這些并不是crosscheck查重的對象,所以會把他們處理掉。這些符號會通通被替換為空格。 其實,crosscheck查重的基本規則只有一條:不連續的六個單詞中間連續不重復的單詞小于四個(不包括四個)即判定這六個單詞重復(注意:這里的規則是軟件系統默認的規則,大部分期刊使用默認規則)。 所有的查重結果都是基于這條進行的。這句話比較繞口。具體怎么理解,我們來看下具體的實例。 先分析最極端也是最直白的重復。不連續的六個單詞中間不重復的單詞為0個,即六個連續重復的單詞。顯然這個肯定是會被判定重復了。下面我用1表示重復的單詞,0表示不重復的單詞。那么這種情況就是:111111。 再分析中間有不重復單詞的情況。這點大家很多情況摸不著頭腦,有時候幾個單詞距離的很遠,也被判定重復了,很是苦惱。 1)中間只有一個不重復的。例如:1011111;1101111;1111011等。 實例:Computer science has been widely considered as ...(斜體表示和已有文獻重復) 這里面單純插入一個widely單詞,是不足以騙過系統的。 2)中間有兩個重復的。例如:1100110011;110010011001;1100110011等。 實例1:Computer science has been widely percieved asan... 這里替換兩個不重復單詞widely percieved,但是Computer, science, has, been, as, an已經是六個不連續的重復了。 實例2:Computer science and technology has been widely percieved as an... 在Computer science后面加上兩個不重復的單詞and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an這六個詞中間只有兩個是不重復的,不能判定為整句不重復。 3)中間有三個不重復的。這個一眼乍看不覺得重復,但其實是重復了。例如:100010001111;100010001000100010001等。 100010001000100010001這種情況是不是很刺激。對!按照規則,這個也算重復。因為六個不連續重復的單詞直接是三個重復的。 實例1:Computer science, resulting from America, has been widely percieved as an... 這種形式是11000110011模式,依舊是重復的。 實例2:Computer science, resulting from America, has been widely percieved as one of most promising.... 好,我們把改成one of most。雖然這三個沒有重復,但緊接著后面的promising和已有文獻重復了,很不幸,整個句子還是重復了。重復形式為11000110010001。 上面分析的是單純的單詞,不涉及符號和數字。大家的論文很多情況包含各種單位符合和數學符號的,系統該如何處理他們? 1)單純的數字。比如123,25,1998等這些整數,他們都是連續的,中間沒有空格和特殊符號,系統不會進行處理,還會保持原來形式。算一個單詞。 實例1:Computer science, developed from 1930, has been widely percieved as an.. 這句話是11000110011的重復,這里的1930算一個單詞。 對于小數要特別注意,因為小數點系統處理后會被空格代替,所以小數是會被看作兩個單詞的。如1.23,在系統里面會看作1和23兩個單詞。 實例2:Computer science, developed from 1,930, has been widely percieved as an.. 還是這句話,這里的1,930多加個了分隔符,就變成兩個單詞。所以句子中間就有四個連續不重復的單詞,整個句子就是不重復的(即developed, from, 1和930四個)。 2)連接符。不少單詞或者專業詞匯會用連接符號連起來,系統會自動把連接符號替換成空格。所以被看作兩個單詞。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。 3)科學單位。文章中難免會有g cm-3這個的有上標或者下標的單位。軟件系統其實不會識別上下標。直接按照正常大小處理,再替換特殊符號為空格,所以g cm-3算三個單詞。 4)包括符號的專有名詞縮寫。比如化學中Ag包覆Au再包覆一層C。作者可能會縮寫成Ag@Au/C。這個經過系統處理后,其實是三個單詞的Ag,Au和C。所以有時候會發現系統把這類詞分開匹配查重。 實例:The synthesized Ag@Au/Cnanoparticles exhibited good activities. 可能會遇到這種重復,這里Ag@Au/C 算作三個單詞,所以是101011101重復類型。 5)跨段落重復。有時候系統的重復可能不在于特定的一段,還會跨段落,因為在軟件眼里,整個文章就是一連串單詞被空格分割,不存在段落之分。 實例: 4. Experimental and methods 4.1. Synthesis of ... 這個是典型的文章中方法部分。這里猜猜系統判定重復的元素是幾個?嗯,8個。去掉點號,就是4, Experimental, and, methods, 4, 1, Synthesis, of 這8個單詞。 6)總結起來,系統處理的特殊符號包括:標點符號;數學符號;特殊符號等一切非數字的符號。 以上就是crosscheck查重的基本規則。基本囊括了大家遇到的情況。了解了這些規則,修改起來就方便了。再舉幾個例子。 Computer science, resulting from America, has been widely percieved as one of most promising.... 這句話是11000110010001重復,最簡單的修改就是把不重復的單詞提高到4個不連續。比如修改成110000110010001就不會被系統判斷重復了。 修改為:Computer science, which results from America, has been widely percieved as one of most promising.... 這種是沒有問題的。 單復數改變。從系統原理可知,單復數是不同的單詞,故可以達到避免重復的目的。 The Au nanoparticleexhibited good catalytical activities and ... 這里是10110111重復,剛好六個,那我們把nanoparticle變為復數nanoparticles變成五個了,不算重復。不過要注意的是修改之后,自己再想想會不會還和別人有重合,畢竟crosscheck系統的對比樣本實在是太豐富了。 同義詞替換。這一招依舊是非常有效的方法。但是不能單純的使用,一定要結合整個句子來。 句子單詞顛倒。不錯的辦法。還是那句話,注意句子的整體結構。 |
熱門排行