你曾經遇過上面這個驗證方式嗎?
身為一個編輯,常常在縮短網址時遇到上面這張圖。而你是否也跟我一樣在心裡發出了這個疑問:「為什麼只需要點一下,Google 就知道我不是機器人呢 」?
一切的一切,都需要從「驗證碼」(CAPTCHA)開始講起。
CAPTCHA 驗證碼:為了不要讓黃牛一次買 10,000 張票
驗證碼 CAPTCHA 原文為下面這串:
C ompletelyA utomatedP ublic
T uring test to tellC omputers andH umansA part
完全沒有達到簡稱的效果。
CAPTCHA 中文俗稱為驗證碼,主要用於區分「人」跟「機器人」。在 2003 年由卡內基梅隆大學的 Luis Von Ahn 與其團隊共同開發,這些扭曲的文字用於防止有心人士一次寄送大量的垃圾郵件,以及黃牛用電腦程式搶佔演唱會與運輸工具的票券。
而扭曲變形是為了避免被搭載光學識別的電腦程式判別出來,現在你知道為什麼驗證碼總是歪七扭八了吧。
接下來你也許會問:「等等,你跟我解釋 CAPTCHA 幹嘛,圖片裡面寫的是『reCAPTCHA』欸」?
reCAPTCHA:偉大的讀書計畫,讓全球使用者一起「讀書」
這個介面相信大家也已經很熟悉了,右下角寫的的確是「reCAPTCHA」。
發明 CAPTCHA 的 Luis Von Ahn 團隊想利用驗證碼的力量來做一些事情。而他們也順利想到一個偉大的計劃:讓全世界的人來協助數位化書本。
書本數位化靠的是光學掃描辨識,不過總有些字詞是電腦分辨不出來的,只好靠全世界使用電腦的免費勞工 aka 你跟我來幫忙。
當一個字詞電腦分辨不出來,他們就會將其上傳到 reCAPTCHA 的資料庫。從這時候開始,驗證碼就不再是隨機、無意義的字母組成了。而當一個字詞被多個使用者輸入相同的答案,該字詞就會被確認,重新回傳到電子書的數據庫。
所以你在 reCAPTCHA 的右下角,可以看到他們的宣言:「Stop Spam, Read Books(垃圾機器人走開,大家一起來看書吧)」。
每年都有一億個 reCAPTCHA 字詞被輸入,等同於每年可以產出 250 萬本書 。
很棒、很有意義吧,我也這樣覺得,Google 也這樣覺得,然後 Google 就把它買下來了。
Google:你很棒,我喜歡,我要買
2009 年 Google 正式宣布收購 reCAPTCHA,Google 持續優化 reCAPTCHA,並讓它替大家數位化 18 世紀以來的《紐約時報》,以及 Google Books。
接著,Google 將 reCAPTCHA 應用到 Google Maps 中,讓大家替街景上的街道號碼牌輸入正確的數值。此舉除了讓 Google Maps 更加完善外,對於 Google 發展無人車也有不小的幫助。
於是世界就變得更美好了。
並沒有。
隨著科技的發展,配有先進演演算法的光學識別軟體開始能辨別驗證碼,於是開始與 Google 展開一段愛與勇氣的搏鬥。Google 先是加深驗證碼的難度,透過扭曲、加線條、添加背景等。
當然,對手也不是省油的燈,很快地雙方在不斷切磋之下,Google 發現隨著驗證碼的難度越來越難,只有 33% 的人類能夠正確填答,而電腦的正確填答率則超過 99%,人類在其中完全呈現黑人問號的狀態。
noCAPTCHA reCAPTCHA:不需要驗證碼的驗證碼
而 Google 的新解答就是「noCAPTCHA reCAPTCHA」,不需要驗證碼的驗證碼,有點像繞口令我頭已經開始痛了。
只需要點選「我不是機器人」,你就會傳送一組資料到 Google 的伺服器中,包含 Google 偷偷記錄下來的 IP 位址、國家、時間, 以及你打勾之前的滑鼠軌跡、打勾之前的網頁捲動紀錄等。
而 Google 的人工智慧透過每天一億筆 noCAPTCHA reCAPTCHA 的資料,漸漸提升判斷準度,到現在已經能夠非常精準的判別你到底是不是真人。
不過,總有它偶爾判別不出來的時候,這時候就會跑出額外的挑戰,例如:選出跟這張圖一樣的可愛貓貓。
好了,關於驗證碼,相信你已經有更廣泛的了解。不過在這背後還有許多議題值得探討,像是對盲人來說驗證碼的機制與無障礙機制都不夠友善、Google 所搜集的資料是否侵權等。
最後讓我們用一張驗證碼做為結束: