“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Wednesday
由於前一陣子MMDAYS發生了文章被抄襲的事件,因此Mr. Wednesday開發了一個工具來幫助了解這類情況,取名為《Parrot》,用於尋找網路上高相似度的文件。
經過初步的實驗,效果還不錯。今天特別邀請各位讀者多加利用,希望在各位讀者碰到類似被抄襲的情況時,能提供一點幫助。使用方法很簡單,進到首頁的畫面後會看到兩個輸入欄位,第一個欄位為文章所在網頁超連結,請輸入文章所在的網頁超連結。第二個欄位是文章內容(必填),請輸入要比對相似度的文章內容,可只輸入文章某的單一段落,也可輸入整篇文章。接著按下submit按鈕即可,運算過程約需30秒鐘左右,請耐心等候。接下來系統會依據相似度由高到低列出相似的網頁連結與其對應的重複字元數,重複字元比例(0到1之間),重複字元比例為一個0以上的正數,越高代表內容越相似,根據實驗,重複字元比例在0.5以上的網頁為高度相似。
Parrot目前仍在實驗中,不保證結果完全正確。如有任何問題,請與我們聯繫,謝謝。
ps. 目前Parrot的服務是跑在port 8180上,如果有伺服器長時間沒有回應的情況,請確認一下是否被您的防火牆給檔掉了。
















不錯的Idea喔~ 但是連不上去耶
12:04
伺服器「www.wkdlab.net」一直沒有回應。
目前機器運作正常,可能當時突然有大量查詢湧入,造成系統不穩定,謝謝您的提醒。
好棒~好棒好棒呀~~~
不過這類運算應該很吃資源吧 ? 如果可以一次比對整站,那就太棒了,看能否作成 js檔,讓網友掛在自己的blog的每一頁,或拉出來讓使用者運用自己的主機資源來跑?
印象中好像Google有提過類似的,還是誰?
剛剛輸入Saturday”寫程式需不需要懂數學”一文
有出來一篇喔…
http://after7.cn/?u=digg_news_display&id=3
To Max:
目前Parrot的服務是跑在port 8180上,如果有伺服器長時間沒有回應的情況,請確認一下是否被您的防火牆給檔掉了。謝謝您。
To Mr.Friday:
那個似乎是類似Hemidemi的書籤網站
從首頁點了文章標題就開這個blog來了
不過遇到那種會改寫,移動字句,東接西偷的人,怎樣都拿牠沒辦法
To lisawong:
的確,碰到有經過改寫時判斷上會變得比較困難。不過除非每個字都改寫(這樣應該也不算是抄襲了:p),只要連續若干字有一定程度以上的抄襲,例如說一個段落,仍有機會藉由機器幫助找到的。謝謝您的建議,正努力改善中。
[...] 剛剛在Mr.-Ms. Days看到了一個好東西: Parrot,這是Mr. Wednesday所開發的一個工具,可以用來尋找網路上有哪些抄襲的文章,剛剛筆者去試用了一下,還挺準的! 馬上找到了幾篇有轉載本站文章的部落格網址。目前這個工具還在研發中,所以希望大家可以幫忙測試看看~ 有問題的話可以回報到網路高相似度文件搜尋系統 - Parrot。未來可以用這個工具來找找看有哪些網站未註明出處或未發送引用就全文轉載你的文章喔~ 底下Parrot的使用方法: [...]
感謝提供這個好用的東西,真的不錯~ 請繼續研發 ^_^
之前NNMONTHS的文章遭到抄襲,因此Mr. May研發了一個工具來找出抄襲事件,取名為《Parrot》,能夠找出網路上相似度極高的文章。
按此進入Parrot服務首頁
測試過後,成果不錯,請各位讀者多加利用,當讀者們遇到可能被抄襲的時候,能盡快找到連結。使用方法:進到Parrot後,各位會看到2個輸入欄位,第1個欄為文章網址。第2個欄位必需填入的是文章內容,可只輸入文章某的單一段落,也可輸入整篇文章。按下submit按鈕,等待時間約30秒左右,若delay太久,請刷新重填。結果顯示:系統會依內文的相似度,由高到低列出可能的網址,數字愈高表示愈相似。
再怎麼棒的程式,也只是防君子不防小人
To lisawong:
是的,我同意你的看法。
ps. 你剛剛的comment怎麼看都覺得名詞怪怪的。
相似度計算方法有小修正,歡迎大家用力測試。
路過,好像很不錯的工具。可以簡單說說原理嗎?自制的 web crawler 做 indexing?
謝謝!
Parrot 偵測文章抄襲的工具
Parrot是MMDAYS開發出來偵測有沒有人抄襲你文章的網站,輸入文章連結跟文章內容後就可以開始計算,會列出相似的網站跟相似度(0 ~ 1),相似度超過0.5的就有嚴重抄襲的嫌疑。準確度應該還可…