Approaches to the preliminary processing of terms co-occurrence graph in the method of island text clustering
DOI:
https://doi.org/10.18372/2073-4751.4.12841Keywords:
кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графуAbstract
Three new approaches to the preliminary processing of terms co-occurrence graph in the method ofisland text clustering are proposed in the article. The algorithms that implement these approaches aredefined. Testing of accuracy and speed of island text clustering using the proposed approaches hasbeen carried out.References
Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i
nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).
Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.
Berry M.W. Survey of Text Mining // Springer. – 2003.
Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.
Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен
объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.
Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.
Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on
Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.
BBC News [Електронний ресурс]. – Режим доступу:
http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).
Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc
ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).
Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.
The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.
SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp
. – Назва з екрану. – (Дата звернення: 15.11.2017).
Downloads
Published
Issue
Section
License
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).