Approaches to the preliminary processing of terms co-occurrence graph in the method of island text clustering

Authors

  • Я. О. Юсин Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
  • Т. М. Заболотня Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

DOI:

https://doi.org/10.18372/2073-4751.4.12841

Keywords:

кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графу

Abstract

Three new approaches to the preliminary processing of terms co-occurrence graph in the method ofisland text clustering are proposed in the article. The algorithms that implement these approaches aredefined. Testing of accuracy and speed of island text clustering using the proposed approaches hasbeen carried out.

Author Biography

Т. М. Заболотня, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

к.т.н.

References

Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i

nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).

Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.

Berry M.W. Survey of Text Mining // Springer. – 2003.

Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.

Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен

объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.

Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.

Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on

Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.

BBC News [Електронний ресурс]. – Режим доступу:

http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).

Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc

ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).

Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.

The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //

Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.

SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp

. – Назва з екрану. – (Дата звернення: 15.11.2017).

Published

2017-12-19

Issue

Section

Статті