Általános fontosság

november 24, 2005

Az információforrás minősége szerinti súlyozás

A keresők kezdetben csak a Keresésfüggő fontosságot vizsgálták. Könnyen belátható azonban, hogy nem biztos, hogy egy Kereső-kifejezés segítségével feltett kérdésre az a honlap adja meg a legjobb választ, amelyiken a legtöbbször, vagy az Oldal kulcsfontosságú részei közül a legtöbben fordulnak elő a keresett Kulcsszavak.

Az információ minőségének megállapítása mellett az általános fontosság a Web spam negatív hatásainak kivédésében is szerepet jűtszik. Számtalan olyan tulajdonság tartozik az általános fontosságot növelő tényezők közé ugyanis, melyre az oldalt üzemeltető webmesternek kevés ráhatása van. Egyszerűbb például egy adott kulcsszó gyakoriságát megnövelni a saját oldalunkon, mint elérni mondjuk, hogy az index.hu hivatkozzon a webhelyünkre.

Általános fontosság szempontjai

Az általános fontosság eldöntésénél nemcsak az adott weblap tulajdonságai jöhetnek számításba, hanem az egész webhelyre vonatkoztatott tulajdonságok is. Mivel a Keresők rangsorolási szempontjai üzleti titkot képeznek, ezért az alábbiak között vannak spekulatív tényezők is:

  • Az adott webhelyet körülvevő linkhálózat elemzése (statikus, térbeli adatok)
  • A weboldal kora, változásának gyakorisága (dinamikus, időbeli adatok)
  • Időbeli és térbeli adatok kombinált vizsgálata (a linkhálózat változásai)
  • A kereső és a kapcsolódó szolgáltatások működése során szerzett adatok figyelembe vétele

A linkhálózat elemzése

  • A leghíresebb módszer a Google kereső PageRank számítása, mely a tudományos publikációk citációs indexeihez hasonló elven alapuló automatizált, algoritmikus módon az egyes weboldalakra bejövő hivatkozások számát elemzi, és ezt tovább súlyozza a hivatkozó oldalra mutató Külső hivatkozások száma alapján, és így tovább.
  • Minden bizonnyal azóta már a kimenő Külső hivatkozások elemzését is segítségül hívják az oldalon taláható információk értékének mérlegelésekor, tekintve, hogy értékes tartalommal kontextusban további értékes tartalomra mutató hivatkozások kell, hogy legyenek.
  • További módszer lehet a hasznos oldalak meghatározására, ha a fontosság súlyozásánál számításba vesznek egyes, emberek által szerkesztett rendszereket. Jó példa erre a Google kereső és az Open Directory Project (ODP) összefonódása: az ODP-ben szereplő oldalak előrébb kerülhetnek a Tematikus katalógusokban nem szereplő egyéb oldalaknál. Manapság pedig a Wikipédia és a Fontos keresők közeledéseinek lehetünk tanúi, valószínűleg végeredményben hasonló célból. A jövőben valószínű, hogy a del.icio.us-hoz hasonló rendszerek használóinak értékítéletét is figyelembe fogják venni: minél többen vesznek fel egy oldalt a saját linkek közé, annál jobb lehet az oldal.
  • A jó minőségű oldalakat körülvevő, természetes módon létrejött Külső hivatkozásokból álló linkhálózat karakterisztikája eltér a Web spam oldlakétól, ennek vizsgálata is hasznos lehet a Találati rangsor minőségének javításakor: A manipulációs célból létrehozott oldalak azonosítása a Rossz szomszédságok behatárolását teszi lehetővé.

Az idő szerepe: a weboldal kora, változásai

  • Milyen régen keletkezett egy információ: Egy tegnap bejegyzett Domainnév alatt nagy valószínűség szerint rosszabb minőségű információ található, mint egy többb éves oldalon, kiváltképp, ha az oldal rendszeresen változott a keletkezése óta eltelt időszakban.
  • Milyen gyakran változik az információ: Az idők során rendszeresen változó tartalmú webhely valószínűleg értékesebb, mint egy évek óta változatlan oldal.
  • Mikor változott utoljára az adott weblap: Minél régebben változott az oldal, annál nagyobb a valószínűsége, hogy tartalma már elavult.

Az időbeli és térbeli adatok kombinált vizsgálata

  • Külső hivatkozások számának változásai, azok csökkenő vagy növekvő tendenciája. Csökken vagy nő-e az oldal népszerűsége?
  • Az oldalra mutató linkek keletkezésének vagy megszűnésének sebessége: A hirtelen keletkezett és a gyorsan megszűnő, hasonló jellegű linkek a külső hivatkozások számának mesterséges felpumpálásáról árulkodhatnak.

A keresőcégek működése során szerzett adatok

  • A kereső működése során szerzett adatok:
    • Hány Kereső-kifejezésre jelenik meg egy oldal a Találati rangsorban, és milyen helyezéssel? Ha egy oldal hirtelen sok helyen jó helyezéssel jelenik meg, akkor lehet, hogy valamilyen manipulatív technikával juttatták oda. A Google kereső például minden egyes adatbázisában szereplő domainról nyilvántartja, hogy mely kifejezésekre jelenik meg leggyakrabban az adott oldalról származó találat a rangsorokban: minderre bizonyíték, hogyha a Google Sitemaps oldalain regisztrálunk egy új webhelyet, akkor ezek az adatok azon nyomban megtekinthetőek.
    • Hányszor fordul elő olyan, hogy a Látogatók továbblapoznak a találati listában? Ekkor valószínű, hogy a Top 10 pozícióban levő lapok nem adják meg a megfelelő választ az adott Kereső-kifejezésre, tehát elképzelhető, hogy az utánuk következő helyezettek jobb választ adnak.
  • A kereső kiegészítő szolgáltatásai révén nyert adatok:
    • A Google Inc. számos olyan szolgáltatást üzemeltet, mellyel adatokat gyűjt a felhasználói szokásokról: például mely oldalakat milyen gyakran látogatnak, ott hány lapot néznek meg, stb., stb. A Google Eszköztár, vagy a Google Web Accelerator értékes adatokat továbbít a központba, nem is beszélve a Google Analytics által készített kimutatásokról. Ezek mind túl értékes információnak tűnnek ahhoz, hogy egy épeszű cégvezető lemondjon a felhasználásukkal járó előnyökről.

Összegzés

A fentiekben felsorolt szempontok közül egyikről sem ismert, hogy konkrétan milyen szerepe, milyen súlya van jelenleg a Fontos keresők Rangsorolási mechanizmusaiban. A PageRank kiszámításának módszerét anno még elég részletesen dokumentálták a Google-ről szóló első Tudományos publikációkban, további részletek például kikövetkeztethetőek a Google Inc. által beadott szabadalmakból, más tényezők felhasználása pedig logikusnak tűnhet.

Mivel mindegyik szemponttal kapcsolatban beszélhetünk kivételekről (Például bizonyos információtípus esetén a régebbi, keveset változó információ értékesebb lehet.), ezért valószínűleg nem az egyes szempontok súlya számít, hanem ezek össszességének elemzése.

A „Általános fontosság” című bejegyzést 2005. 11. 24. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2006. 12. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások