Підходи до попереднього оброблення графу сумісної зустрічальності термів в методі острівної кластеризації текстів
DOI:
https://doi.org/10.18372/2073-4751.4.12841Ключові слова:
кластеризація, острівна кластеризація, апроксимація графу, попереднє оброблення графуАнотація
В статті запропоновано три нових підходи до попереднього оброблення графу сумісноїзустрічальності термів в методі острівної кластеризації текстів. Визначено алгоритми, які реалізують дані підходи. Проведено тестування точності та швидкості виконання острівної кластеризації текстів з використанням запропонованих підходівПосилання
Information explosion [Електронний ресурс]. – Режим доступу:https://en.oxforddictionaries.com/definition/i
nformation_explosion. – Назва з екрану. – (Дата звернення: 15.12.2017).
Gantz J., Reinsel D. The digital universe in 2020: Big data bigger digital shadows and biggest growth in the far east //IDC iView: IDC Anal. Future. – 2012. – №2007. – С. 1-16.
Berry M.W. Survey of Text Mining // Springer. – 2003.
Шмулевич М.М., Киселев М.В., Пивоваров В.С. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к аналізу тематической структуры новостного потока, а также ее динамики // Интернет-математика 2005. – 2005. –С. 412-435.
Шмулевич М. М. Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен
объектов и последующем построении графов совместной встречаемости ключевых термов : дис. канд. фіз.-мат. наук / Шмулевич Марк Михайлович – Москва, 2009. – 120 с.
Spielman D.A., Srivastava N. Graph sparsification by effective resistances // Symposium on Theory of Computing 2004. – 2004. – С.81-90.
Ghosh A., Boyd S., Saberi A. Minimizing effective resistance of a graph // 17th International Symposium on
Mathematical Theory of Networks and Systems. – 2006. – С.1185-1196.
BBC News [Електронний ресурс]. – Режим доступу:
http://www.bbc.com/news. – Назва з екрану. – (Дата звернення: 15.11.2017).
Reuters-21578 [Електронний ресурс]. – Режим доступу: http://www.daviddlewis.com/resources/testc
ollections/reuters21578/. – Назва з екрану. – (Дата звернення: 13.11.2017).
Template Method / E.Gamma, R. Helm, R. Johnson, J. Vlissides // Design Patterns / E.Gamma, R. Helm, R. Johnson, J. Vlissides., 1994. – С. 325–330.
The Stanford CoreNLP Natural Language Processing Toolkit / [C. D. Manning, M. Surdeanu, J. Bauer та ін.] //
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations / [C. D. Manning, M. Surdeanu, J. Bauer та ін.]., 2014. – С. 55–60.
SimpleNetNlp [Електронний ресурс]. – Режим доступу: https://github.com/yakivyusin/SimpleNetNlp
. – Назва з екрану. – (Дата звернення: 15.11.2017).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).