АНАЛІЗ ВИМОГ ДО АВТОМАТИЗОВАНИХ МЕТОДІВ ВИЛУЧЕННЯ ДАНИХ ПРО ОДНОТИПНІ ОБ’ЄКТИ З WEB-ПРОСТОРУ

Автор(и)

  • Марія Сергіївна Бурматова Infopulse LLC
  • Михайло Вікторович Оленін Національний авіаційний університет

Ключові слова:

Вилучення даних, метод обгорток, автоматизоване вилучення, синтаксичні методи вилучення.

Анотація

Проаналізовано 5 методів вилучення інформації про однотипні об’єкти з простору Web на відповідність поставленим вимогам: метод Sunny, методи обгорток, методи автоматизованого вилучення, синтаксичні методи та метод обробки Web-сторінки як текстового документу. Доведено найбільшу відповідність вимогам методу Sunny та методу обробки Web-сторінки як текстового документу.

Біографії авторів

Марія Сергіївна Бурматова, Infopulse LLC

Менеджер проектів, Infopulse LLC. Наукові інтереси: data mining, data storage solutions.

Михайло Вікторович Оленін, Національний авіаційний університет

К. т. н., доцент кафедри інженерії програмного забезпечення Національного авіаційного університету. Наукові інтереси: інтелектуальні системи.

Посилання

Бурматова М.С., Оленін М.В. Аналіз сучасних пошукових систем на предмет їх придатності для пошуку і вилучення інформації про однотипні об’єкти з Web-простору: матеріали міжнародної науково-технічної конференції УкрПрог 2010, Київ, Україна – К., 2010.

Moore JH. Computational analysis of gene-gene interactions using multifactor dimensionality reduction. Expert Rev Mol Diagn. 2004 Nov;4(6): 795 – 803. [Electronic resource] : рroceedings. – Mode of access: WWW.URL: http://www.multifactordimensionalityreduction.org/– Last

access: 2010.

Liu, B., Grossman, R., Zhai, Y. Mining Data Records in Web Pages. KDD-03, 2003.

Zhao, H., Meng, W., Wu, Z., Raghavan, V.,Yu, C. Fully automatic wrapper generation for search engines. WWW-05, 2005

##submission.downloads##

Номер

Розділ

УДОСКОНАЛЕННЯ ПРОЦЕСІВ ЖИТТЄВОГО ЦИКЛУ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ