Підходи до попереднього оброблення графу сумісної зустрічальності термів в методі острівної кластеризації текстів

Автор(и)

  • Я. О. Юсин Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
  • Т. М. Заболотня Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

DOI:

https://doi.org/10.18372/2073-4751.4.12841

Ключові слова:

кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графу

Анотація

В статті запропоновано три нових підходи до попереднього оброблення графу сумісноїзустрічальності термів в методі острівної кластеризації текстів. Визначено алгоритми, які реалізують дані підходи. Проведено тестування точності та швидкості виконання острівної кластеризації текстів з використанням запропонованих підходів

Біографія автора

Т. М. Заболотня, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

к.т.н.

Посилання

Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i

nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).

Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.

Berry M.W. Survey of Text Mining // Springer. – 2003.

Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.

Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен

объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.

Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.

Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on

Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.

BBC News [Електронний ресурс]. – Режим доступу:

http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).

Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc

ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).

Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.

The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //

Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.

SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp

. – Назва з екрану. – (Дата звернення: 15.11.2017).

##submission.downloads##

Опубліковано

2017-12-19

Номер

Розділ

Статті