Rudarenje tekstualnih podataka

Rudarenje tekstualnih podataka, slično analitici teksta, je proces izvođenja visokokvalitetnih informacija iz teksta. To uključuje "kompjutersko otkrivanje novih, ranije nepoznatih informacija, automatskim izdvajanjem informacija iz različitih pisanih izvora." [1] Pisani resursi mogu uključivati web stranice, knjige, e-poruke, recenzije i članke. Visokokvalitetne informacije se obično dobijaju osmišljavanjem obrazaca i trendova pomoću sredstava kao što je učenje statističkih obrazaca. Prema Hothou et al. (2005) možemo razlikovati tri različite perspektive rudarenja teksta: ekstrakciju informacija, rudarenje podataka i KDD (en. Knowledge Discovery in Database, tj. otkrivanje znanja u bazama podataka) proces.[2] Iskopavanje teksta obično uključuje proces strukturiranja ulaznog teksta (obično raščlanjivanje, uz dodavanje nekih izvedenih jezičkih karakteristika i uklanjanje drugih, te naknadno umetanje u bazu podataka ), izvođenje obrazaca unutar strukturiranih podataka i konačno evaluaciju i interpretaciju izlaza. 'Visoka kvaliteta' u rudarenju teksta obično se odnosi na neku kombinaciju relevantnosti, novosti i interesa. Tipični zadaci rudarenja teksta uključuju kategorizaciju teksta, grupisanje teksta, izdvajanje koncepta/entiteta, proizvodnju granularnih taksonomija, analizu sentimenta, sažimanje dokumenta i modeliranje odnosa entiteta (tj. učenje odnosa između imenovanih entiteta).

Reference

uredi

Citati

uredi

 

  1. ^ "Marti Hearst: What is Text Mining?".
  2. ^ Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62

Izvori

uredi