栗子現場直播 千篇一栗
有很多簡單的道理,若不是被遺忘,不是察覺不到,就是知易行難。

2012年2月28日 星期二

怪怪的 reCAPTCHA

如果大家有試過開網站賬號,應該會見過以上這種東東。不介紹了。
reCAPTCHA 最奇怪的地方是,它出的圖片都比其他 CAPTCHA 難。甚至會出現不能解的圖。

最近因為 HiAuntie/HiSocial,走去看 reCAPTCHA 技術細節,發現了那些怪圖出現的主因。
reCAPTCHA 圖片的製作方式比較特別。它不是用軟件把字畫在圖上,而是直接把現實圖書的掃描圖直接拿出來用。不但如此,還要專挑一些不能用軟件辨認的文字。
我們姑且不論那程式如何懂得辨認甚麼是「不能用軟件辨認的文字」,甚至辨認那些「不能用軟件辨認的文字」是甚麼文字。但可以肯定的是,既然電腦本身已經看不懂那些文字,那就代表要看那些文字有一定的難度。如果程式出包,甚至會有非文字走出來。

而 Google 之所以用現實圖書來做 reCAPTCHA,主要原因是想用這個系統,把現實圖書數碼化。每當一個人解決一個 reCAPTCHA,就有一本書的一個字節被數碼化。這就是 reCAPTCHA 口號中「read books」的意思。

沒有留言: