
Google is al geruime tijd bezig elk boek in de wereld te indexeren. Zo nu en dan kan je daar ook leuke dingen mee doen.
Zo lanceerde Google vorige week Google Ngram viewer. Een simpel tooltje waarmee je kunt zoeken hoe vaak een bepaald woord of zinsnede
voorkomt in alle boeken van de bibliotheek van Google. Dat levert soms verrassende resultaten op. Wat voorbeelden:* Draken zijn altijd cool geweest in fictie en alleen robots zijn daar ooit dichtbij gekomen.
* Sex,drugs en rock & roll in het Amerikaanse gedrukte hebben duidelijk impact gemaakt, ook in fictie, maar bij de Britten dan weer wat minder.
* Religie is minder belangrijk dan sex tegenwoordig.
* Elvis en The Beatles zijn hooguit één jaar groter dan Jezus geweest (1810 WTF?).
* Fuck doet het al jaren goed (en voor 1820 mocht je de S en F nog uitwisselen)
* Technologie doet het ook goed.
Oh ja, en er zit natuurlijk een Easter Egg in.
Kret-209: Als je verlamd bent is hij moeilijk in te koppen.
Nicko: Misschien had ook deze
meneer de foto gezien van he...
B-sting: Wat ik dus ook al riep
toen iemand de YouTube-versi...
Parallaxhhh: Inderdaad, dat is
'handhaving'. Als ik ooit van die...
Parallaxhhh: Volgens mij is dat
niet eens politie.

Roel Zwaar: Mensen die veel stopwoordjes en tussenwerpselen
geb...
Meneer van Dale: 'Basically' tijdens presentaties die in het
Engels ...
Geenszins Joling: Ook niet naar Zweinstein?
Geenszins Joling: Was 'het zijn van je ding' al voorbij
gekomen? Of ...
Draken.: Komt-ie: De meest optimale oplossing Een peut in
j...

Totaal aantal: 1314
Waaronder de leden:
raxx Mr Nelson DeadFish Wildplasser, beroepsweig biermeester mutsenfluts Stefizzle RoHS WitPaard HarryP koei Het neefje van Tofik 8000rpm Roel Zwaar TheStef Meneer van Dale Snarf Monade - category B trai Susan Heklicht Pikey2ndViolin4ever supa xaderp, zelfstandig vacc Der Webmeister koffieverkeerd Rennab pedigree
raxx Mr Nelson DeadFish Wildplasser, beroepsweig biermeester mutsenfluts Stefizzle RoHS WitPaard HarryP koei Het neefje van Tofik 8000rpm Roel Zwaar TheStef Meneer van Dale Snarf Monade - category B trai Susan Heklicht Pikey2ndViolin4ever supa xaderp, zelfstandig vacc Der Webmeister koffieverkeerd Rennab pedigree
















Ik denk dat we hier getuige zijn van de sexuele revolutie en de hippietijd, toen gebruik in de zin van 'geslachtsgemeenschap hebben' aanvaardbaar werd. Juist toen het spannende eraf was, kwam de videoclip in '82 en werd het woord een betekenisloze krachtterm.
/huistuinkeukensocioloog
ook een leuke feature is de "reading level index" van een website die aangeeft wat het 'leesniveau' van de betreffende site is ("For example, if you are in an introductory course on biology, you may want to select basic or intermediate results for your specific query.")
De erectolo's hebben 0% advanced, 62% intermediate en 37% basic
en - fucking hell - de verguisde televaag komt weg met 0% basic, 80% intermediate en 20% advanced. GVD.
Ook opmerkelijk is de trend voor gay. "De ouden" waren er niet vies van (dat wisten we al) maar nu zie je het ook. En rond 1990 ineens een heel scherpe stijging na een anderhalve eeuw dalende trend, zeg maar.
Oeh, en wat ook leuk is ... ze hebben de ruwe datasets online staan, kun je je eigen "research" er mee doen.
Ik moet zeggen dat de N-grams wel heel veel lijken op wat MegaHAL (zie Henk/Ingrid bot-topic) doet. Wachten totdat google ook alle .nl boeken heeft gescand, dan kunnen die datasets zo aan plasbot enzo gevoerd worden.
Met hoofdletters verhoudt Jezus tot Elvis en Beatles als Sha-Baz tot de rest.
Trouwens, de 'nederlandse identiteit' bestaat inderdaad niet.
http://ngrams.googlelabs.com/graph?content=terrorist&year_start=1800&year_end=2008&corpus=5&smoothing=0
http://ngrams.googlelabs.com/graph?content=netherlands&year_start=1980&year_end=2008&corpus=0&smoothing=0
http://ngrams.googlelabs.com/graph?content=netherlands&year_start=1776&year_end=2008&corpus=0&smoothing=0
"De kans dat een zelfstandig naamwoord aan het begin van een zin staat word niet groter of kleiner met de tijd zou je denken."
Niet in 10 jaar, wel in 100.
"Ook in de vergelijking tussen twee zelfstandig naamwoorden is de kans bij beide gelijk dat hij vooraan een zin kan staan."
klopt, effecten zullen voor beide termen gelijk zijn.
Ik zocht op pirates,ninjas maar dan blijft hij er automagisch "global temperature" bij doen.
Ligt dat nu aan mij? Is dit een bug? Een feature? Easter-egg?
Zei ik smoothing en fistfucking in één zin? Ja, dat zei ik.
http://ngrams.googlelabs.com/graph?content=jesus%2Cbeatles%2Cfuck%2Csuck%2Cass%2Csatan&year_start=1800&year_end=2008&corpus=0&smoothing=1
god en devil
Zoek even op "internet".. Wat heb ik gemist begin vorige eeuw?
ZOUDEN DEZE PARTIJEN EEN TIJDMACHINE GEBOUWD HEBBEN BEGIN JAREN 90?
[/aluhoedje]
http://ngrams.googlelabs.com/graph?content=hitler&year_start=1800&year_end=2008&corpus=0&smoothing=3
Why does the word "Internet" occur before 1950?
Time traveling software engineers!Most of those are OCR errors; we do a good job at filtering out books with low OCR quality scores, but some errors do slip through.