Adatbányászat

július 1, 2005

Multi-diszciplináris, matematikán alapuló tudományág

Az adatbányászat tudományának nagy szerepe van a Szabadszavas keresők fejlesztésében, megismerése segíthet a Kereső rendszerek működése‘nek jobb megértésében. Álljon itt egy részlet Bodon Ferenc Adatbányászati algoritmusok tanulmány című írásának bevezetőjéből, mely hasznos olvasmány az adatbányászat témakörében elmélyülni szándékozók számára:

…Az adatok azonban önmagukban nem hasznosak,hanem a belőlük kinyerhető, a vállalat igényeihez igazodó, azt kielégítő információkra lenneszükség. Ez egy újabb szükségletet teremt: egy olyan eszköz iránti igényt, ami képes arra, hogy információszerzéscéljából elemezze a nyers adatokat. Ez az új eszköz az adatbányászat.Adatbányászati (data mining) algoritmusokat az adatbázisból történő tudásfeltárás (knowledgediscovery in databases) során alkalmaznak. A tudáskinyerés adatbázisokból egy olyan folyamat,melynek során érvényes, újszerű, lehetőleg hasznos és végső soron érthető mintákat fedezünk fel azadatokban. Ezt gyakran megtehetjük különböző lekérdezések eredményeinek vizsgálatával, azonbanez a megoldás lassú, drága és nem elég átfogó. Nem is beszélve arról, hogy az emberi szubjektivitássokszor hibás, továbbá az adatbázisok olyan nagyok lehetnek, hogy egyes lekérdezések elfogadhatatlanullassan futnak le. Jogos tehát az igény, hogy a legismertebb, leggyakoribb elemzéstípusokhozspeciális módszereket, algoritmusokat fejlesszenek ki, amelyek gyorsan és pontosan szolgáltatnakegy objektív képet az adatbázisokban található „kincsről”.Az adatbányászatot az üzleti élet és a marketing keltette életre. Még ma is ezek az adatbányászat főmozgató rugói. Szerencsére az adatbányászat lehetőségeit egyre több területen ismerik fel, melynekeredményeként az alapkutatásoknak is egy fontos eszköze lett. Alkalmazzák az orvosbiológiában,genetikában, távközlésben, csillagászatban, . . .

Az adatbányászat egy multi-diszciplináris terület. Az alábbi ábrán látható, hogy mely tudományterületekeszközeit használja: Az adatbányászat és határterületei
Az adatbányászat több hangsúlyt fektet az algoritmusokra, mint a statisztika, és többet a modellekre, mint a gépi tanulás eszközei (pl. neurális hálózatok). Mára már az adatbányászat akkora területté nőtte ki magát, hogy szinte lehetetlen átlátni magas színvonalon az egészet.

Copyright © 2002-2005 Bodon Ferenc
Ezen dokumentum a Free Software Foundation által kiadott GNU Free Documentation license 1.2-es, vagy bármely azt követő verziójának feltételei alapján másolható, terjeszthető és/vagy módosítható. Nincs Nem Változtatható Szakasz, nincs Címlap-szöveg, nincs Hátlap-szöveg. A licenc magyar nyelű fordítása a http://hu.wikipedia.org/wiki/A_GNU_Szabad_Dokumentációs_Licenc_szövege oldalon található.

SZTAKI Adatbányászat és webes keresés kutatócsoportja

http://www.ilab.sztaki.hu/websearch/index.hu.html

A fenti címen található Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutató Intézete Informatikai Kutatólaboratórium „Adatbányászat és webes keresés” kutatócsoportjának honlapja.

Ez a műhely (Data minig and web search) fejleszti a SZTAKI keresőt. Ezenkívül érdekes megismerkedni még az alábbi projektekkel:

Szövegbányászat cikksorozat

http://www.vazsonyi.hu/szovegbanyaszat/

Idézet Vázsonyi Miklós honlapjáról:

„A szövegbányászat témájú nemzetközi irodalom rövid idő leforgása alatt már óriásira nötte ki magát, mialatt a vonatkozó magyar nyelvű szakirodalmi anyagok csak csekély mértékben szaporodtak. Munkámmal ezt a hiányt igyekeztem megszüntetni, és jelen cikksorozatommal egy olyan átfogó és ugyanakkor kellően a részletekben elmélyedő áttekintést szolgáltatni, amely lefedi a szövegbányászat legfontosabb ismereteit, alkalmazási területeit, módszereit, kihívásait, ezáltal ellátva ismeretterjesztési célját.”

A „Adatbányászat” című bejegyzést 2005. 07. 01. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 03. 29., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások