Űrlapok

április 15, 2008

Legördülő menük, szövegmezők szerepe az optimalizálásban

Nagyobb méretű adatbázisok tartalmát megjelenítő weboldalak esetén gyakran az oldalon található tartalmakat elsősorban (és olykor kizárólag) különböző űrlapok kitöltésével, egy- vagy többféle paraméter kiválasztásával, netalán szöveges mezőbe beírt kulcsszavak, Kereső-kifejezések segítségével lehet elérni. Sokszor szinte fizikailag is lehetetlen lenne a nagyméretű adatbázisban található összes tartalom eléréséhez elméletileg szükséges többezer szöveges link szerepeltetése, ezért gyakran csak néhány kiemelt lista alapján érhetőek el a tartalmak (legutóbbi tartalmak, akciós vagy kiemelt ajánlatok, stb.), melyek csak az adatbázis egy részét képezik.

Az ilyen típusú oldalak eddig a Láthatatlan webet gazdagították, mivel a többparaméteres, ráadásul szabadon kitölthető szöveges mezőkkel rendelkező űrlapok kitöltésére sokszor gyakorlatilag végtelen lehetőség adódik, nem is beszélve az egyes mezőkben megadható adattípusok korlátozása, ellenőrzése által jelentett problémákról. Sok esetben „nem kár” ezekért az oldalakért, hiszen például a Szabadszavas keresők maguk is olyan oldalak, melyek mögött egy hatalmas adatbázis található, mely tartalma űrlapok (keresőmező) segítségével érhető el. Könnyen belátható például, hogy nem sok haszna lenne, ha a Google kereső beindexelné a Yahoo! kereső találati rangsorait. Más oldalak esetében azonban már az első oldalon nagy akadályt jelenthet egy legördülő menüt tartalmazó űrlappal megoldott ország/nyelvválasztó elem, mely már lehet, hogy nem is engedi tovább a robotokat a nyitóoldalnál.

http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html

A Google 2008. áprilisi bejelentése arra enged következtetni, hogy az űrlapok jelentette problémakör súlya a közeljövőben fokozatosan csökkenhet. A bejelentés szerint ha a Google Keresőrobotja, a Googlebot egy minőségi oldalon talál egy FORM elemet, akkor előfordulhat, hogy a FORM paraméterei alapján elvégez néhány lekérdezést, kiválasztva pár különböző opciót, mintegy szimulálva a felhasználók lehetséges lekéréseit. Szövegmezők esetén még az is előfordulhat, hogy a Googlebot kiválaszt egy szót az oldalról, és mintegy „beírva” ezt a szót a szövegmezőbe, végrehajt egy lekérést.

A fenti bejelentésben persze hangsúlyozzák a dolog kísérleti jellegét, illetve hogy az így végrehajtott lekérdezések során igyekeznek körültekintően eljárni: nem lebénítva a kérdéses oldalt a túl gyakori, nagyszámú lekérdezésekkel, kizárólag GET lekéréseket követve (leeggyszerűsítve amikor a paramétereket az URL-ben küldik el), jelszavakat, felhasználói neveket, stb. tartalmazó (pl. bejelentkezési) űrlapokat nem kitöltve, szigorúan tartva magukat a robots.txt és a robots Meta tagokban szereplő korlátozásokhoz.

OldalGazda már pár héttel ezelőtt észlelte, hogy egyes oldalakról olyan weblapok is megjelentek a Google adatbázisában, melyeket kizárólag a felhasználók által végzett keresésekkel lehetett elérni (például énoldalam.hu/keres.php?keresokifejezes=valami típusú URL-ek). Valószínűleg az elmúlt időszakban egyrészt a Google Analytics és a Google Eszköztár segítségével nagymennyiségű adathoz jutottak hozzá általában és egyes oldalakkal kapcsolatban konkrétan, hogy milyen típusú — űrlapok segítségével történő — lekérdezések segítségével lehet elérni eddig láthatatlan webhez tartozó tartalmakat, hiszen az Analytics és a Toolbar segítségével a Google sok, a Googlebot számára eddig láthatatlan URL-ekről is tudomást szerezhetett. Másrészt pedig a folyamatos fejlesztések következtében valószínűleg már rendelkezésre áll annyi számítási kapacitás a Google adatközpontokban, hogy a FORM, OPTION, INPUT, SELECT, BUTTON, stb. elemek kezelése során felmerülő technikai problémákkal is megbírkózzanak.

A teljességhez hozzátartozik, hogy a többi kereső nagy valószínűség szerint egyelőre nem lesz képes az űrlapok „kezelésére” és a mögötte található weblapok elérésére, továbbá elsősorban olyan oldalak esetén fog előfordulni az, hogy az űrlapokkal is próbálkozzon a Googlebot, ahol a bejövő linkek súlya és/vagy a látogatottság alapján valószínűsíthető, hogy az adott oldal kifejezetten értékes tartalommal rendelkezik.

A „Űrlapok” című bejegyzést 2008. 04. 15. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2008. 04. 15., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások