Q1.1 比對系統所用的演算法為何?
A: 此系統主要的方法是交通大學自行研發的文字相似度評估演算法,原理是在受測文件(懷疑抄襲)與比對文件(原稿)之間,對於受測文件的每一句子(sentence)、在比對文件之中找出最相似的句子,然後針對兩句子找出共同的文字(word)序列。因為所謂句子本身就是文字與標點符號的序列,因此只要統計這些共同文字序列的字數、對比受測文件的總字數,就可以知道該文件當中有多大的篇幅是抄襲比對文件而來。
請參考:
A Hybrid Methodology of Effective Text-Similarity Evaluation
Shu-Kai Yang and Chien Chou, National Yang Ming Chiao Tung University.
ICS 2018: New Trends in Computer Technologies and Applications pp 227-237
Q1.2 比對系統能適用的語言有哪些?
A: 目前只適用於英文、繁體中文、以及中英文的夾雜混和文件,這是因為不同語言的文字或字母內碼、斷句方式、書寫方向都不相同,無法以單一的計算規則就駕馭全部。
Q1.3 為什麼這個方法可以偵測抄襲?
A: 常見的抄襲手法除了對於原稿文字整句或整段落的複製之外,還包括了對於字句進行不同程度的改寫,在受測的文件當中還可能把這些抄襲來的內容放置於文件中的任何位置,因此不能假設抄襲文件只是對於原稿文件的刪節而已。
以上的抄襲改寫手法、這個比對系統都可以偵測出來,除非受測文件是完全原創、或者已經以同義字詞改寫了每一個句子的每個字,否則都躲不過比對系統的偵測。相較於一些文字差異或版本比較軟體、例如Microsoft Word內建的文件版本比較功能、只要句子或段落調換順序就不會被視為相同,這個系統更能夠揪出受測文件中的抄襲情事。
Q1.4 比對系統如何評估文件的相似度?為什麼要這麼評估?
A: 實用的相似度數字最好是能夠直觀地反映出受測文件中抄襲的篇幅比重,例如受測文件中有多少數量的句子是抄襲自比對文件的,或者受測文件中有多少字數是抄襲自比對文件的。這個比對系統採用的是字數的統計,抄襲的字數除以受測文件的總字數、這個百分比數字就是受測文件相對於比對文件的相似度。
Q1.5 為什麼計算相似度要以字數為基礎、而不是句數?
A: 現有的一些抄襲檢測服務是以句數來評估文件的相似度的,這個比對系統卻是採用字數,有三個原因。第一個原因是演算法的差異,現有的抄襲檢測服務大多是將文件拆分的句子以後,簡單地比較句子若有連續幾個字相同、則視為相似句,所以統計的基礎是句數,而這個比對系統是精準地檢測出每兩個相似句究竟是那些字相似,所以可以統計到以字數為單位。
第二個原因是以字數為基礎的統計更可以反映出句子相似的程度,兩個句子完全相同也是相似、只有幾個字相同也是相似,計算出來的文件相似度百分比會有相當的誤差。比起以句數為基礎的統計,以字數為基礎來計算相似度更可以精細地反映文件抄襲的幅度。
第三個原因是文件在拆分成句子的過程中,難免會有拆分錯誤的情況,例如文件中某些段落以換行作為句子的結束、而非標點符號,就會產生應拆分而未拆分的情況;英文句子中某些縮寫點與句號難以判別,就會產生不應拆分卻拆分成多句的情況。以句數為基礎的相似度計算便會因此產生誤差,但是以字數為基礎的相似度計算就不受影響。
基於以上三個理由,這個比對採用以字數為基礎來計算相似度的方案。
Q1.6 為什麼比對後的相似處(紅字標示)、有些句子只有標示出單字而非整句?
A: 這個比對系統在操作介面上的設計本來就是指示出句子相似的部份,也就是受測文件中的句子和比對文件中的某個句子、究竟是那些文字相似,因此當句子不是完全抄寫的時候,就只有以紅色標示出相同的文字而非整個句子。
Q1.7 為什麼將受測文件與比對文件交換之後,相似度數字不同?
A: 會認為文件左右對換以後相似度數字會相等本來就是一種誤解,因為受測文件和比對文件本身的總字數本來就不同。比對系統的相似度計算是相同的字數除以受測文件的總字數,所以就算兩文件的相同字數(分子)是一樣的,總字數(分母)不一樣,相除之後得到的相似度百分比自然不會相等。
Q2.1 比對系統上有一個「跟所有文件比對」的相似度是什麼?
A: 因為受測文件可能同時抄襲多份比對文件,所以這個比對系統也支援一對多的比對功能,而操作介面上右邊清單、每份比對文件前的相似度數字就是受測文件與它相同的篇幅比例。然而要計算受測文件總共有多少篇幅是抄襲自右列的所有文件、並不是把這些數字相加起來,而是將受測文件中檢測到與各比對文字相同的文字部份聯集起來、計算字數,進而得到這個「跟所有文件比對」的相似度。
換句話說,「跟所有文件比對」的相似度即是「相似於右列任何一篇比對文件的字數除以受測文件的總字數」,也就是受測文件相似於右列任何一篇比對文件的篇幅比例百分比。
Q2.2 比對系統在分析文章的時候,斷句不正確怎麼辦?
A: 每篇受測或比對文件在分析的時候會有少量斷句不正確的情形是很難避免的,但是由於這個比對系統計算相似度的基礎是基於字數而不是句數,所以影響是微乎其微的。斷句不正確主要是因為各份文件的格式不同,以及在英文上難以辨別一些縮寫點和句點。
在比對系統的操作介面中,有一個能夠點選受測文件的句子並找出它在比對文件中的抄襲句的功能,在這個部份會讓使用者察覺到有些許斷句不正確的情況發生,除此之外在計算出的相似度百分比和輸出的報告檔案上是沒有影響的。
Q2.3 比對系統在分析文章的時候,句子分類錯誤怎麼辦?
A: 當比對系統用於抄襲偵測的時候,常見的一個需求是想要排除引用(quotation)和參考文獻(references)的部份,因為已經正確引用的文字部分本來就不應該被視為抄襲,而引用條目也是理所當然會與他人的著作重複的部分。因此這個比對系統提供了「忽略引用的文字部分」以及「忽略參考文獻的部分」這兩個選項,讓系統自動掠過引用文字和參考條目,不去檢查它們的相似度。
這個比對系統會自動地把整句子都包在引號內的文字視為引用文字、會把諸如參考文獻或Refernces標題之後的所有內容視為參考條目,然而,這仍然不是絕對正確的,如果文件作者未正確地使用引號來包裹文字,或是使用其他的標題來表示參考文獻,系統便無法正確的區隔一般文字、引用文字、以及參考條目。
在這些情形下,使用者可以在比對系統內經由點選那些分類錯誤的句子、按下滑鼠的右鍵或鍵盤的F2去更改句子的分類,正確地將句子歸類為一般文字、引用文字、以及參考條目之後,再重新進行比對。
Q2.4 如果我想要比對的範圍只有文件中的某些章節而不是整份文件,可以嗎?
A: 不可以,這個比對系統只能進行文件對文件的比對工作,如果有這種需求,請預先把要比對的部分文件分割為獨立的文件檔案。
Q3.1 比對系統是否能夠比對文件中的圖片?或是比對文件的掃描圖檔?
A: 不能,這個比對系統只能比對文件的文字部分,如果文件本身就是掃描圖檔,請先使用光學字元辨識(OCR)軟體轉換為文字以後,再進行比對,Microsoft Office就有內建的OCR功能。同理,比對系統也無法處理文件中的非文字物件,例如以方程式編輯器產生的數學式子以及其他內嵌物件。
Q3.2 為什麼有些 Microsoft Word 檔案無法讀取、會出現格式錯誤訊息?
A: 這個比對系統使用自由軟體程式庫NPOI何NPOI.HWPF來讀取Microsoft Word檔案,所以使用者不必在電腦中預先安裝Microsoft Office軟體,比對系統就可以讀取.docx與.doc 檔案,既然不是Microsoft提供的原生功能,偶爾會遇到無法完全正確讀取的檔案,這種時候請將文件轉換成 .pdf檔案以後再使用。
Q3.3 為什麼有些 Microsoft Word 檔案讀取之後是一片空白?
A: 本軟體適用繁體中文、英文、或中英文混和內容的Microsoft Word文件檔案,有些文件檔案是其他內碼、例如簡體中文,就算轉檔成繁體中文以後,仍然可能無法正常讀取,這種時候請將文件轉換成 .pdf檔案以後再使用。
Q3.4 為什麼有些檔案在讀取進來之後,標題的格式跑掉了?
A: 因為比對系統在讀取文件的時候本來就不知道哪些文字是標題,尤其是 .pdf檔案格式,本來就只包含各處文字片段的字型、尺寸、出現位置,比對系統猜測那些單行或短段落、粗體、尺寸較大的文字可能是文件標題或子標題,當然也很可能會猜錯,無論如何,都不會影響比對結果。
Q4.1 比對系統在安裝後無法啟動。
A: 運行這個比對系統需要 .NET Framework 4.72 以上版本的系統元件,這個元件在Windows 10 已經是內建的,但是在Windows 7(含) 以下可能需要另外地安裝,請上Microsoft下載中心搜尋並下載最新版本的 .NET Framework。