Tudományos céllal elérhetővé tett adatok a keresésekről
A Google kereső találati eredményeit felhasználó AOL nyilvánosságra hozott egy három hónapon át gyűjtött, 650 ezer felhasználó által megadott közel 20 milliónyi kereső-kifejezésből álló adathalmazt, melynek mérete 439 MB. A gond csak annyi volt, hogy a kifejezések mellett az egyes felhasználókat egy vélelen számmal azonosították: sok esetben pedig egyszerűen, nagy biztonsággal beazonosíthatóak a felhasználók az általuk megadott keresőkifejezések alapján (pl. amikor saját nevükre vagy oldalukra keresnek rá.) Emiatt pedig gyorsan levették a fájlt az eredeti helyéről, ezért ezt a verziót csak tükrüzések segítségével lehet elérni, melyek listája például a http://www.gregsadetsky.com/aol-data/ oldalon található meg.
A logfájlban megtalálható adatok
- AnonID – Az eredeti felhasználói név helett véletlenszerűen generált szám
- Query – Használt Kereső-kifejezés
- QueryTime – Keresés ideje
- ItemRank – Ha a felhasználó rákattintott az egyik találatra, akkor a találat Rangsorolása
- ClickURL – A fenti esetben a találati oldal domainneve.
Böngészés az adatok között
http://www.aolsearchdatabase.com/
Ahogy az várható volt, több oldalon indult olyan szolgáltatás, mely lehetővé teszi ennek az adathalmaznak a weben történő lekérdezését.
Ha pedig történetesen nem Windows-t használsz, akkor egyszerűen kitömörítheted a fájlt, majd a terminált megnyitva, beírhatsz olyanokat, mint:
grep 'index\.hu' user-ct-test-collection-01.txt
Átkattintási arányok a top 10 pozícióban
http://www.jimboykin.com/click-rate-for-top-10-search-results/
Az AOL adatbázis alapján kiszámolták, hogy hányan kattintanak egy adott találati lista 1-10. helyén lévő találatokra. Az eredmény azt mutatja, hogy már az első oldalon listázott weblapokra történő kattintásban is óriási (nagyságrendi) különbség van az előkelőbb helyen lévők javára, tehát a Top 10 pozíció sem mindig elég…
Eredeti oldalak
Az adatok eredetileg itt jelentek meg, azonban azóta már nem elérhetőek:
link a fájlra: research.aol.com/pmwiki/pmwiki.php?n=Research.Research?action=downloadman&upname=500kusers.tgz
oldal: research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months
A „AOL keresések statisztikái” című bejegyzést 2006. 08. 08. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 07. 05., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.