Google Inc. keresőrobotjai

november 18, 2004

Adatgyűjtés különböző szolgáltatásokhoz

A Google Inc. több egymástól függetlenül működő szolgáltatást üzemel, mint pl. a Google kereső, AdSense, Google Blogkereső, stb. Ezeknek a szolgáltatásoknak mind megvannak a saját adatűjtő mechanizmusaik, mely segítségével a szolgáltatásokkal kapcsolatban levő weblapok Felgöngyölítése zajlik.

Googlebot

A Googlebot a Google kereső számára gyűjt információkat. User Agentje többféle lehet, például:

Mint ahogy az az User Agentekből is kitűnik, a hivatalos információk a http://www.google.com/bot.html oldalon találhatóak.

Mediapartners-Google/2.1

A Mediapartners-Google/2.1 User Agent-tel bejelentkező spider az AdSense program számára gyűjt információkat: Felgöngyölíti azokat a lapokat, ahol AdSense hirdetés található, ezáltal naprakészen tartva az oldal témájával, ott szereplő kulcsszavakkal kapcsolatos adatokat, ami a kontextusba illeszkedő hirdetések megjelenítéséhez szükséges.

A Google Inc. robotjainak együttműködése

Régebben ezek a szolgáltatások, és a számukra adatot gyűjtő Keresőrobotok működése nem volt összehangolva, manapság azonban egy úgynevezett belső proxi szerver segítségével zajlik az adatgyűjtés. Bármelyik Google keresőrobot térképez is fel egy oldalt, eredményét egy központi szerveren is eltárolják. Ha valamelyik szolgáltatás belső logikájától vezérelve úgy dönt, hogy szüksége lenne egy adott weblap tartalmára, akkor először nem az adott weboldalt kérdezi le, hanem ezt a belső proxi szervert. Ha pedig ezen a proxi-n megtalálható egy nem elavult másolat, akkor nem kérdezi le az eredeti oldalt tároló webszervert.

Ez azzal a látszattal járhat, hogy pl. az AdSense által gyűjtő robot is részt vesz Google kereső adatbázisának feltöltésében (lásd: http://www.jensense.com/archives/2006/04/adsense_mediapa.html ), azonban ez a látszat csak a fenti rendszer működésének következtében alakulhat ki.

További részletek: http://www.mattcutts.com/blog/crawl-caching-proxy/

Archivált hozzászólások

Google DOS támadás

2006. 03. 07. 18:09 · Névtelen hozzászóló →

Tudom nem teljesen a témához kapcsolódik, de valamilyen szinten mégis. Észrevettem, hogy az egyik szerverem adott időközönként szinte elérhetetlen, ezért utánanéztem a log-okban mi is okozhatja ezt. Kiderült , hogy az Adsense programban résztvevő oldalak közül az egyikre DOS támadást intéz a google botja. Mindezt úgy csinálja, hogy feltérképezte az oldal programjának lehetőségét és a userek által meghívott összes külső URL-t véginyomja az eredményekért. Van valakinek ötlete miért csinálhatja ezt?

Re: Google DOS támadás

2006. 03. 08. 02:13 · Névtelen hozzászóló →

Az oldalak felgöngyölítésekor léphetnek fel hibák, ezt talán egy kicsit erős DoS támadásként aposztrofálni. Kérdezd meg a google-t szerintem.