Melyik a legjobb kereső program (2005 február)?
A magyar nyelven történő keresésre a legjobb kereső a [Google]. Nem sokkal lemaradva tőle következik a Yahoo! kereső illetve a Yahoo! kereső adatbázisát használó vizsla.origo.hu. Az MSN Keresőnek is az élbolyban lenne a helye, ha le lehetne szűkíteni a keresést a magyar nyelvre. Menetközben figyeltem fel a Gigablast-ra, ami még egy kipróbálásra érdemes alternatív kereső. A többi keresőre véleményem szerint jelenleg nem érdemes az időt vesztegetni.
Vizsgálat
Többfajta módon vizsgáltam a keresőket: A leggyakoribb húsz magyar szóra, nemrégiben keletkezett magyar kifejezésekre, a Himnuszra rákresve, illetve az AlapműIndex segítségével. Ezekkel a vizsgálatokkal az adatbázisok nagyságát, frissességét és a találatok sorbarendezésének hatékonyságát vettem górcső alá.
Az egy évvel ezelőtti vizsgálatokhoz (Keresőoldalak összehasonlítása (2004. február)) képest egyszerűbb dolgom van, tekintve, hogy a Yahoo! kereső bevásárolt keresőkből, így az olyan oldalak mint az http://altavista.com vagy az http://alltheweb.com találatai is már a Yahoo! kereső által fejlesztett adatbázisból származnak. Emellett a [Google] maradt az egyetlen nemzetközi oldal, ahol magyar nyelvre leszűkítve is lehet keresni. (Az MSN kereső és a Teoma oldalain nincs erre lehetőség.) A magyar oldalak közül a [vizsla.origo.hu] került górcső alá, ami a Yahoo! kereső adatbázisából származó találatok alapján működik, ezenkívül a goliat.hu, a heureka.hu és mint új, kísérleti szolgáltatást– a SZTAKI kereső működését vizsgáltam.
Találatok számának elemzése a leggyakoribb húsz magyar szó alapján
Az egyik legfontosabb kérdés, hogy hány magyar nyelvű oldal szerepel a keresőoldalak adatbázisában, mert ha egy weboldal nincsen benne az adatbázisban, akkor nem fogjuk megtalálni a keresőkben. Feltételeztem, hogy a leggyakoribb magyar szavakra rákeresve következtetni lehet a beindexelt lapok nagyságrendjére. Ritka szavak esetén szintén sokatmondó lehet a találatok száma, azonban ebben az esetben nagyobb a véletlen szerepe a kapott eredményekben. Ezért tehát először a a SzóSzablya szerint az interneten található húsz leggyakoribb magyar szóra (a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha) kerestem rá.
- Korántsem biztos, hogy ténylegesen annyi lap szerepel az adatbázisban, mint amennyit a keresőoldal kijelez.
- Elképzelhetõ, hogy a találati oldalak nagy száma paradox módon az oldalak feldolgozásának hiányosságaiból ered:
- majdhogynem természetes, hogy nem magyar nyelvű oldalak is szerepelnek a kapott találatok között, tehát ha egy kereső rosszabb hatékonysággal különbözteti meg a magyar tartalmat a nem magyar tartalomtól, akkor úgy tűnhet, hogy nagyobb az adatbázisa.
- ha a Tárhely kiválasztása esetén ugyanazt az oldalt más fejléccel, stb. többször is beindexeli a keresõ (például egy hírportál cikkje mellett a gyakran változó aktuális hírek is szerepelnek ugyanazon az oldalon, ekkor az oldal tartalma mindig más és más lesz, alényegi tartalom viszont ugyanaz marad.)
- ha beindexeli a haszontalan, egyébként a Web spamkategóriájába tartozó odalakat is
- dinamikus oldalaknál sokszor egy tartalomhoz többféle úton is el lehet jutni, ekkor az oldalak URL-je más és más, de a tartalom szóról szóra ugyanaz (Például egy aktuális hírhez a fõoldalról is el lehet jutni, de a hír kategórájának eloldaláról illetve az Oldaltérkép felõl is.)
Kimagaslóan a legtöbb oldalt a goliat.hu jelezte ki, bár az első négy szóra nem engedett rákeresni. Utána következett a [Google], majd a Yahoo! kereső kereső. A szintén a Yahoo! kereső! adatbázisából dolgozó [vizsla.origo.hu] már jóval kevesebb oldalt jelzett ki magyar nyelvű oldalnak, míg a kísérleti üzemmódban működő SZTAKI kereső lett az utolsó helyezett ebből a szempontból.
A keresőprogramok adatbázisainak változása az elmúlt időszakban
A Google volt az egyetlen olyan keresőprogram, ami stabilan bővítette adatbázisát, alapvető technológiai váltások nélkül. Ha kiváncsi arra, hogy az elmúlt egy évben pontosan hogyan változott a keresők által beindexelt oldalak száma, akkor olvasd el a Kereső adatbázisok mérete (2004.) című cikket.
Találatok minőségének elemzése a leggyakoribb húsz magyar szóra rákeresve
Mivel a leggyakoribb húsz magyar szó a weblapok döntő többségében szerepel, ezért ezekre a szavakra rákeresve szinte minden magyar nyelvű lapnak esélye van a találati listára való bejutásra. Ideális esetben a Szabadszavas keresőknak a hasonló találatok közül a legfontosabbakat, legjobbakat kellene a találati rangsor élére kihozni. Ezért a legfontosabb, legnagyobb webhelyek nyitólapjai kellene, hogy elfoglalják előkelő helyeket a Találati rangsorban. Az első tíz találat elemzése alapján azonban nem csak a Rangsorolás hatékonyságát állapíthatjuk meg, hanem nagyvonalakban benyomást kaphatunk, hogy a különböző keresők a weblapok mely tulajdonságait tekintik fontosnak a rangsoroláskor.
Rögtön az a
szóra rákeresve több érdekességre figyelhetünk fel: Az első helyezett egy olyan oldal lett, ami egyedül csak egy vicces videót tartalmaz ( http://www.funpic.hu/swf/numanuma.html ). Ez az eset egyértelműen mutatja egyrészt a Külső hivatkozás vagyis a PageRank fontosságát, másrészt a Linkre rakott kulcsszavak erejét ( majd kétszáznegyven bejövő hivatkozást mutatott jelzett ki a Google). Egy másik jelenség miatt egyáltalán nem a legfontosabb oldalak értek el top helyezést: Az oldal címében (elérési útvonalában) szereplő kulcsszavaknak nagyon nagy súlya van. Akkor is számításba kerülnek, ha a keresett kulcsszó csak egy töredékét jelenti az egész elérési útvonalnak (az a
betű sok címben, sokszor előfordul Az előbb említett oldal elérési útvonalában is kétszer.) Az ‘és’ keresőszóra kapott találatok is világosan alátámasztják az előbbieket: mivel az ‘és’ ékezetes formában nem szerepel domainnevekben, sem elérési útvonalakban, ezért a találati lista sokkal kiegyensúlyozottabb: az első helyezéseket minisztériumok, egyéb fontos szervezetek és kiadványok nyitóoldalai érték el. Hasonlóan a ‘már’ és a ‘még’ kifejezésekre rákeresve is sokkal több nagyobb webhelyhez tartozó oldalt kapunk. Mivel ezek a szavak ritkábban szerepelnek a weboldalak megnevezésében, címében (TITLE), ezért itt is előfordulnak olyan lapok, melyek beljebb találhatóak egy-egy webhely struktúrájában.
Yahoo! kereső
A Találati rangsor első helyein rengeteg, nem .hu domain alatt bejegyzett oldal található. Egyes webhelyek, egyes ingyenes honlapfarmok, mint például a blogspot.com, angelfire.com vagy a geocities.com meglehetősen túlprezentáltak. Fontos magyar webhelyek helyett fontos nemzetközi helyek magyar nyelvű aloldalai szerepelnek az előkelő helyeken. (pl. http://gnu.org) Mindezek mellett nagyon sok nem magyar nyelvű oldalt tüntet fel magyar nyelvűként. A keresett kulcsszavak többször is előfordultak az első tíz helyezett oldal Szövegtörzs-ében. A google-val ellentétben a kulcsszavak ritkán fordulnak elő a helyezett oldalak címében illetve elérési útvonalában.
vizsla
Bár a Yahoo! kereső adatbázisát használja, találati rangsora azonban annál sokkal-sokkal jobb minőségű: úgy néz ki gyakorlatilag, mintha a legtöbb nem .hu domain alatt található oldalt kiszűrnénk a Yahoo! kereső! találataiból (ezzel sok, tévesen magyar nyelvűnek kijelzett oldaltól is megtisztítva az eredményt). Nem tudom, hogy ezt hogy érik el, a helyükben én biztos, hogy a vizsla katalógusban már benne levő oldalakat preferálnám a szabadszavas keresésnél is. A Yahoo! kereső!-hoz hasonlóan itt is a kulcsszavak többször fordulnak elő a szövegtörzsben, de végeredményben az ideálist majdnem megközelítő Találati rangsor-at kapunk: zömében fontos oldalak kerültek bele az első tíz találat közé.
goliat
A tizenhat találati rangsor első tíz helyén majd’ mindig ugyanaz a bő tucatnyi oldal osztozik (melyek nem sorolhatóak a legfontosabb magyar webhelyek közé), körülbelül az első tíz oldal nyolcvan százaléka ebből a körből kerül ki. A keresett szavakat általában kijelzi akkor is, ha az Elérési útvonalban fordult elő, és akkor is, ha a Szövegtörzsben. A fent említett oldalakkal kapcsolatban ellenben csak elvétve jelzi ki, hogy ezeket a kulcsszavakat fellelte volna. Ezt kétféleképpen lehet magyarázni: vagy a [Google] példáját követve valami PageRank féle algoritmus eltúlzott mértékű használatával illetve a Linkre rakott kulcsszavak túlzott figyelembevételével állunk szemben, vagy egyszerűen csak a goliat.hu-nak valamilyen szinten köze van ezekhez az oldalakhoz; ekkor viszont bújtatott reklámról van szó.
SZTAKI kereső
A kapott találatok általában változatosak, noha fel lehet fedezni néhány olyan (általában nem túl fontos) oldalt, ami sok kulcsszóra rákeresve elöl végez, bár ezek mindegyike tartalmazta is szövegtörzsében és/vagy címében a keresett szót. Emellett fontosnak látszik az is, hogy a keresett kifejezés hányszor ismétlődik az oldalon. Összességében a nagy, fontos oldalak alig jelentek meg az első tíz találat között. Sokszor problémák vannak az ékezetekkel, és volt példa rá, hogy JavaScript kódrészletet is mutatott találatként.
Heuréka
Eléggé változatos oldalakat találni a találati listkban. A freeblog.hu, a blog.nol.hu és a szanalmas.hu az a három lap, amit túlprezentáltnak mondhatunk. Olykor egymás után több aldomain is következik a listákban. A kapott oldalak túlnyomó többségének szerepelt a TITLE-jében a keresett szó. A találati oldala nagy része azonban tavaly decemberben és novemberben került utoljára frissítésre. Pozitív, hogy minden oldalnál kiírja az utolsó indexelés idejét. Negatív, hogy nem emeli ki az oldalon talált kulcsszó szövegkörnyezetét.
Nemrégiben keletkezett kulcsszavakra keresés
Képet kaphatunk a kereső programok adatbázisainak frissességéről, ha nemrég felbukkant, megalkotott szavakra, kifjezésekre keresünk rá. Emellett tovább finomíthatja az egyes adatbázisok nagyságáról alkotott elképzeléseket is. Az alábbi szavakat választottam ki, némileg persze önkényesen:
- szökőár, a december végi tragikus események kapcsán került be nagy számban az adatbázisokba
- nyócker, az animációs film címe, tavaly került bemutatásra.
- fészekrakó, a kormány új kezdeményezése, mely februártól indult, de az év elejétől egyre több szó esett róla
- hantaméter, az ellenzék ex-kormányfőjének ezévi országértékelése során volt hallható először ez a kifejezés, a múlt héten
- vizsla24, pár nappal ezelőtt tűnt fel ezen az új néven az origo kereső-szolgáltatása
goliat | heuréka | vizsla | msn search | yahoo | ||
szökőár | 247 | 9556 | 14757 | 28355 | 98400 | 360000 |
nyócker | 144 | 664 | 906 | 36297 | 30200 | 18100 |
fészekrakó | 8781 | 867 | 3836 | 19103 | 87400 | 190000 |
hantaméter | 0 | 5 | 5 | 507 | 1090 | 8 |
vizsla24 | 0 | 7 | 9 | 1412 | 2400 | 72 |
A grafikon alapján egyértelműen a Yahoo! kereső! tűnik a nyertesnek, ám a táblázatot megnézve jól látszik, hogy a Yahoo! kereső! csak két keresőszó esetén produkált kiemelkedő teljesítményt. Megfigyelhető továbbá, hogy a legújabban (a keresés ideje előtt pár nappal) felbukkant szavakkal kapcsolatban látványosan alulmarad a Yahoo! kereső!, ezzel olyan érdekes helyzetet idéz elő, hogy a [vizsla.origo.hu] kereső-szolgáltatás új neve a vizsla24 jóval kevesebbszer szerepelt a vizsla24 adatbázisában, mint a Google-éban, vagy akárcsak az MSN kereső-éban.
A SZTAKI kereső és a Teoma kereső gyakorlatilag nem adott találatot a fenti szavakra.
Isten áldd meg a magyart teszt
Sokat elmond a keresők szolgáltatásainak minőségéről, ha egy olyan magyar nyelvű alapműre keresünk rá, mint a Himnusz. Alapvető elvárás, hogy a Isten áldd meg a magyart keresőkifejezésre rákeresve a találati rangsor első helyezettje közölje a Himnusz teljes szövegét, emellett nem árt, ha valamilyen pluszinformációt is nyújt a Himnusszal kapcsolatban, egyszóval elvárás, hogy a kersésünk szempontjából leghasznosabb oldal kerüljön az első helyre. Emellett további elvárás, hogy a kereső megfelelően értelmezze szándékunk, és csak az olyan oldalakat listázza ki, amelyekben szerepel a kereső-kifejezés összes szava. Fontos szempont továbbá, hogy anélkül dobja ki a kifejezést pontosan ilyen formában tartalmazó oldalakat a találatok elejére, hogy ezért nekünk bármilyen plusz intézkedést kellene tegyünk (Pl. idézőjelbe tenni a keresőkifejezést, vagy logikai kifejezéseket alkalmazni, esetleg egy további keresőűrlapot kitölteni.)
Egy meglehetősen gagyi kinézetű dalgyűteményes oldal, a tartalom viszont értékes. A szöveghez nincsen semmilyen kommentár, viszont egyből le is lehet tölteni a Himnuszt mp3-ban. ( http://ingeb.org/songs/istenald.html )
MSN Search
Egy amerikai magyar fiatalember személyes honlapja, szöveghű angol fordítással, rövid bevezetővel ( http://www.korossy.org/magyar/himnusz.html )
Yahoo! kereső!, vizsla24
Az angol nyelvű wikipédia oldala, angol fordítással, rövid bevezetővel, ami világviszonylatban kontextusba helyezi a művet. ( http://en.wikipedia.org/wiki/Isten_%E1ldd_meg_a_magyart )
Teoma
Az első találat nem volt elérhető. A második találat szintén egy több webhely által licenszelt online enciklopédia bejegyzése. ( http://www.asinah.net/articles/content/i/is/isten_aldd_meg_a_magyart.html )
goliat
Automatikusan nem vette figyelembe az a szót, viszont a többi szót szókapcsolatokra bontotta és ennek megfelelően első körben el kellett dönteni, hogy pl. az „isten áldd”, „meg magyart” vagy az „isten áldd meg” és a „magyart” előfordulásai alapjánkérjük le a listát. Némi felesleges felhasználói beavatkozás után kapott találati lista élén a himnusz.hu domain szerepelt. Ez nyilvánvalóan egy megvásárolt, de parkolópályán tartott domainnévhez rendelt kultúrált megoldás, ami a teljes szövegen kívűl tartalmaz még pár linket. ( http://www.himnusz.hu )
heuréka
Közel s távol nem lehetett találni olyan oldalt, ami a himnuszról szólt volna. Ehelyett csak olyan találatok szerepeltek, melyek tartalmazták a kereső-kifejezés szavainak valamelyikét.
Alapműindex
A keresők AlapműIndex szerinti rangsorolása a következő volt:
- Gigablast : 1645/7
- [Google] : 1570/8
- MSN kereső : 3132/32
- Yahoo! kereső : 1420/18
- Teoma, [vizsla.origo.hu], goliat.hu, heureka.hu, SZTAKI kereső : értékelhetetlen
A „Keresőoldalak összehasonlítása (2005. február)” című bejegyzést 2005. 03. 22. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 09. 01., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.