Rudarenje tekstualnih podataka
Rudarenje tekstualnih podataka, slično analitici teksta, je proces izvođenja visokokvalitetnih informacija iz teksta. To uključuje "kompjutersko otkrivanje novih, ranije nepoznatih informacija, automatskim izdvajanjem informacija iz različitih pisanih izvora." [1] Pisani resursi mogu uključivati web stranice, knjige, e-poruke, recenzije i članke. Visokokvalitetne informacije se obično dobijaju osmišljavanjem obrazaca i trendova pomoću sredstava kao što je učenje statističkih obrazaca. Prema Hothou et al. (2005) možemo razlikovati tri različite perspektive rudarenja teksta: ekstrakciju informacija, rudarenje podataka i KDD (en. Knowledge Discovery in Database, tj. otkrivanje znanja u bazama podataka) proces.[2] Iskopavanje teksta obično uključuje proces strukturiranja ulaznog teksta (obično raščlanjivanje, uz dodavanje nekih izvedenih jezičkih karakteristika i uklanjanje drugih, te naknadno umetanje u bazu podataka ), izvođenje obrazaca unutar strukturiranih podataka i konačno evaluaciju i interpretaciju izlaza. 'Visoka kvaliteta' u rudarenju teksta obično se odnosi na neku kombinaciju relevantnosti, novosti i interesa. Tipični zadaci rudarenja teksta uključuju kategorizaciju teksta, grupisanje teksta, izdvajanje koncepta/entiteta, proizvodnju granularnih taksonomija, analizu sentimenta, sažimanje dokumenta i modeliranje odnosa entiteta (tj. učenje odnosa između imenovanih entiteta).
Reference
urediCitati
uredi
- ^ "Marti Hearst: What is Text Mining?".
- ^ Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62
Izvori
uredi- Ananiadou, S. and McNaught, J. (Editors) (2006). Text Mining for Biology and Biomedicine. Artech House Books. ISBN 978-1-58053-984-5ISBN 978-1-58053-984-5
- Bilisoly, R. (2008). Practical Text Mining with Perl. New York: John Wiley & Sons. ISBN 978-0-470-17643-6ISBN 978-0-470-17643-6
- Feldman, R., and Sanger, J. (2006). The Text Mining Handbook. New York: Cambridge University Press. ISBN 978-0-521-83657-9ISBN 978-0-521-83657-9
- Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62
- Indurkhya, N., and Damerau, F. (2010). Handbook Of Natural Language Processing, 2nd Edition. Boca Raton, FL: CRC Press. ISBN 978-1-4200-8592-1ISBN 978-1-4200-8592-1
- Kao, A., and Poteet, S. (Editors). Natural Language Processing and Text Mining. Springer. ISBN 1-84628-175-XISBN 1-84628-175-X
- Konchady, M. Text Mining Application Programming (Programming Series). Charles River Media. ISBN 1-58450-460-9ISBN 1-58450-460-9
- Manning, C., and Schutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9ISBN 978-0-262-13360-9
- Miner, G., Elder, J., Hill. T, Nisbet, R., Delen, D. and Fast, A. (2012). Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Elsevier Academic Press. ISBN 978-0-12-386979-1ISBN 978-0-12-386979-1
- McKnight, W. (2005). "Building business intelligence: Text data mining in business intelligence". DM Review, 21-22.
- Srivastava, A., and Sahami. M. (2009). Text Mining: Classification, Clustering, and Applications. Boca Raton, FL: CRC Press. ISBN 978-1-4200-5940-3ISBN 978-1-4200-5940-3
- Zanasi, A. (Editor) (2007). Text Mining and its Applications to Intelligence, CRM and Knowledge Management. WIT Press. ISBN 978-1-84564-131-3ISBN 978-1-84564-131-3