Űrlapok

október 6, 2011

Nagyobb adatbázisok tartalmát megjelenítő weboldalak esetén gyakran az oldalon található tartalmakat kizárólag összetett űrlapok kitöltésével, többféle paraméter kiválasztásával, keresőmezőbe beírt kulcsszavak segítségével lehet elérni. Az ilyen megoldások miatt a keresőrobotok gyakran csak töredékét látják egy weboldal tartalmának, bármennyi erőfeszítést tesznek is a technikai korlátok legyőzéséért.

Legördülő menük, szövegmezők szerepe

Sokszor fizikailag lehetetlen lenne egy nagyméretű adatbázisban található összes tartalom eléréséhez elméletileg szükséges több ezer szöveges link létrehozása, és valamilyen formában való megjelenítése az oldalon, ezért a látogatók és a keresőrobotok is gyakran csak a különböző űrlapok segítéségével férhetnek hozzá a tartalmakhoz, vagy némileg jobb esetben csak néhány kiemelt lista segítségével, részlegesen érhetőek el az adott adatbázis tartalmai (legutóbbi tartalmak, akciós vagy kiemelt ajánlatok, stb.).

Űrlapok kitöltésének nehézségei

A többparaméteres, ráadásul szabadon kitölthető szöveges mezőkkel rendelkező űrlapok kitöltésére sokszor gyakorlatilag végtelen lehetőség adódik, nem is beszélve az egyes mezőkben megadható adattípusok korlátozása, ellenőrzése által jelentett problémákról. Ha például a keresőrobot „nem jön rá”, hogy az egyik beviteli mező csak érvényes e-mailt fogad el, így semmiképpen nem fogja tudni érvényes módon kitölteni az űrlapot, és így hozzájutni az űrlap mögötti a tartalmakhoz.

Ha pedig történetesen egy szabadszavas keresőmező segítségével férhetünk hozzá egy komplex adatbázishoz, akkor a keresőrobotoknak gyakorlatilag végtelen mennyiségű adatot kellene végigpróbálgatniuk.

Ráadásul, ha az űrlap kitöltése során megadott paraméterek nem tükröződnek a kapott találati oldal URL-jében, akkor egy újabb, gyakorlatilag alig áthidalható problémával állunk szemben, ugyanis itt nem érvényesül a keresőkkel való interakció egyik alapelve, miszerint egy tartalomhoz egy adott URL és egy URL-hez egy adott tartalom tartozzék.

Űrlapok mögötti oldalak hasznossága

Sok esetben „nem kár” az űrlapok miatt a keresők számára láthatatlanná váló az oldalakért, hiszen például a szabadszavas keresők maguk is olyan oldalak, melyek mögött egy hatalmas adatbázis található, mely tartalma űrlapok (keresőmező) segítségével érhető el. Könnyen belátható például, hogy nem sok haszna lenne, ha a Google keresője beindexelné a Bing találati rangsorait. Más oldalak esetében azonban már az első oldalon nagy akadályt jelenthet egy legördülő menüt tartalmazó űrlappal megoldott ország/nyelvválasztó elem, mely a konkrét technikai megoldás függvényében lehet, hogy nem is engedi tovább a robotokat a nyitóoldalnál.

Keresőrobotok küzdelme az űrlapokkal

Már 2008-ban bejelentették a Googlebot képes átmászni néhány űrlap típuson, azonban még 2011-ben is találkoztunk olyan oldallal, ahol a kizárólag űrlappal való elérések miatt egy adott weboldal mögött álló gazdag tartalomnak csak töredéke jelent meg a keresőkben.

A kérdéses bejelentés szerint ha a Googlebot egy minőségi oldalon talál egy FORM elemet, akkor előfordulhat, hogy a FORM paraméterei alapján elvégez néhány lekérdezést, kiválasztva pár különböző opciót, mintegy szimulálva a felhasználók lehetséges lekéréseit. Szövegmezők esetén még az is előfordulhat, hogy a Googlebot kiválaszt egy szót az oldalról, és mintegy „beírva” ezt a szót a szövegmezőbe, végrehajt egy lekérést.

A fenti bejelentésben persze hangsúlyozzák a dolog kísérleti jellegét, illetve hogy az így végrehajtott lekérdezések során igyekeznek körültekintően eljárni: nem lebénítva a kérdéses oldalt a túl gyakori, nagyszámú lekérdezésekkel, kizárólag GET lekéréseket követve (leegyszerűsítve amikor a paramétereket az URL-ben küldik el), jelszavakat, felhasználói neveket, stb. tartalmazó (pl. bejelentkezési) űrlapokat nem kitöltve, szigorúan tartva magukat a robots.txt és a robots Meta tagokban szereplő korlátozásokhoz.

A Googlebot űrlapkitöltéseinek jelei

Ha például rákeresünk bizonyos URL-ekre, melyeket kizárólag a felhasználók által végzett keresésekkel lehetett elérni (például énoldalam.hu/keres.php?keresokifejezes=valami típusú URL-ek), akkor láthatunk néhány érdekes találatot a kereső adatbázisában. Például az

 inurl:"search?SearchableText"  site:dmsz.hu 

kereséssel olyan találati oldalakat is láthatunk, melyek esetén szinte biztos, hogy a keresőrobot az oldal szövegében találomra fellelt kulcsszóval próbálta kitölteni a keresőmezőt, hiszen olyanokra, hogy behozzák, csakúgy, foglalkozók vélhetőleg senki nem keres.

Googlebot űrlapokat tölt ki

Összefoglalás

Ha tehát egy összetettebb adatbázis tartalmát jeleníti meg weboldalunk, semmiképp ne bízzuk magunkat a Googlebot „ügyességére”, hiszen az űrlapok jelentette akadályok akár az adatbázis döntő hányadának feltérképezését is teljességgel lehetetlenné tehetik, így weboldalunk a láthatatlan web mélységeit fogja majd gazdagítani csak. Ügyeljünk arra, hogy ha nem is az elsődleges navigáció szerepét betöltő módon, de lehetőleg pusztán szöveges linkekkel is elérhetővé tegyük az adatbázis minél nagyobb, valóban fontos és hasznos információt tartalmazó hányadát

a keresőrobotok számára.