Hjälp Google digitalisera böcker genom reCaptcha
recaptcha-banner

Visste du att varje gång vi fyller i en Captcha i Googles reCaptcha så hjälper vi dem att tyda och digitalisera böcker? Det var en nyhet till mig, som ännu en gång bevisar att Google gör mer för internet och mänskligheten är många andra där ute. Men låt oss ta det hela från början:

Ni har säkert sett de där bilderna på ord, som folk ber er tyda och skriva ner för att bli accepterad som en människa och få äran att posta en kommentar, skicka ett kontaktformulär eller registrera sig på ett forum. Dessa bilder kallas för Captchas och används för att robotar inte ska utnyttja din hemsida till att sprida reklam på.

Jag har tidigare skrivit om olika sätt att stoppa skräppost från att nå din inkorg, och skrev där att jag avråder från att använda captchas eftersom det tar lång tid, och är irriterande för besökaren att hela tiden fylla i. Jag kan dock inte förneka att captchas är en av de absolut framgångsrikaste metoder för att bli av med spam.

Enligt Google tar det ungefär 10 sekunder att tyda och fylla i en captcha. En person som använder internet relativt mycket blir tvungen att skriva in en capcha ungefär en gång var tredje dag. Om man multiplicerar detta med alla personer som dagligen använder internet ganska mycket kan man uppskatta att vi tillsammans på hela jorden skriver ungefär 200 miljoner captchas per dag. Multiplicera detta sedan med de 10 sekunder de tar att skriva in och vi får grovt räknat fram att att vi tillsammans spenderar ungefär 500.000 timmar till att tyda och skriva captchas totalt runt om på jorden, varje dag. Detta är fruktansvärt mycket tid att bara slösa bort, så Google, som är en tänkande familj, satte sig ner för att försöka hitta på hur man kan utnyttja vår förmåga att tyda ord och skriva ner våra gissningar på vad det står, på ett bra sätt. Och det var så de kom på att man kunde utnyttja det till att tyda ord deras boköversättare inte förstår när de försöker digitalisera böcker.

Digitalisera Böcker

När man digitaliserar böcker så har man först den vanliga boken i ett normalt format, och scannar sedan in den i datorn. Detta är i nuläget endast en bild av en text och alltså ingenting en dator kan läsa. Men genom att köra bilden av en textsida genom ett program som kallas OCR så försöker datorn tyda kladdet, känna igen ord, och på så sätt få en igenkännbar text.

När bläck är gammalt, halvt utsuddat av ålder eller liknande så är det inte så lätt för datorn att förstå vad som står och man får ett meddelande tillbaka med ett ord som datorn inte kunde tyda. Det är här Du och din reCaptcha kommer in i bilden. För genom att förvränga ordet lite extra och göra om det oläsliga ordet till en captcha kan man placera det framför en forum användare, eller en blogg kommentator och be personen att tyda ordet åt Google och datorn.

”Men…” tänker du, ”om ordet i fråga per definition är ett ord som datorn inte kan tyda, hur ska datorn då kunna veta ifall vi har skrivit in rätt ord?”. Svaret är helt enkelt att det vet inte Google och reCaptcha, men genom att placera ordet tillsammans med ett annat ord som datorn kan tyda, kan man använda det ordet som den riktiga captchan. Ifall användaren lyckas tyda det andra ordet, kan man anta att användaren är en människa, och man kan också anta att han också kan läsa det andra ordet.

Genom att ge samma oläsliga ord till flera miljoner användare kan man ganska snart få fram en väldigt bra gissning på vad det oläsliga ordet verkligen betyder, och på så sätt komma lite närmare en helt digitaliserad bok.

Efter att ha sett den här videon från Google, där de beskriver detta, får jag lust att skaffa mig lite reCaptchas själv, bara för att kunna hjälpa Google att fortsätta digitalisera världen.

Invändningar

TT skrev igår (den 5:e februari) om att Googles planer på ett digitalt bibliotek får möta en hel del protester. Nu senast är det Amerikanska Justitiedepartementet som inte är nöjda. Tidigare har företag som Amazon och Microsoft gjort sina röster hörda och alltid är det Copyright-frågan som ligger till grund för protesterna.

Det senaste avtalet som Google slutit med amerikanska författarförbundet bygger på att en författare aktivt måste säga ”Nej” ifall författaren inte vill ha sitt verk publicerat av Google, istället för att Google måste fråga varje författare om lov. Detta för också med sig problem när författarna inte går att finna till diverse verk, de så kallade ”Herrelösa verken”.

Vad tycker ni om Googles digitalisering av böcker, för att bygga ett digitalt bibliotek?


Inga kommentarer till 'Hjälp Google digitalisera böcker genom reCaptcha'

  • Det har inte kommit några kommentarer än, bli den första att skriva en

Lämna en kommentar

XHTML: Du kan använda dessa taggar:
<a href="">, <em>, <strong>, <img src="">,
<pre lang="php">, <code>, <blockquote>