Вид работы:
Магистерская диссертация
Предмет:

Страниц:
93
Источников:
36
Срок:
6
Файл:
диплом 384.doc


Содержание:

1 АНАЛИЗ ПРОЦЕССА ИЗВЛЕЧЕНИЯ ДАННЫХ И ИНСТРУМЕНТОВ ДЛЯ ВЫПОЛНЕНИЯ ЭКСТРАКЦИЙ 10
1.1 Информационные ресурсы для систем цифрового бизнеса 10
1.2 Характеристики процесса извлечения данных 13
1.3 Представление элементов веб-страницы 18
1.4. Проблемы с HTML для извлечения данных 19
1.5 Обзор существующих инструментов извлечения данных 22
1.6 Выводы по первому разделу 28
2 РАЗРАБОТКА МЕТОДИКИ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ВЕБ-РЕСУРСОВ СИСТЕМ ЦИФРОВОГО БИЗНЕСА 30
2.1. Особенности извлечении и идентификации данных текстового веб-контента 30
2.2. Разработка концептуальной модели представления единого информационного пространства ресурсов бизнес деятельности корпорации 36
2.3 Модель извлечения информации из слабоструктурированного текста 41
2.4 Модель веб скрапинга для автоматизации извлечения данных из веб страниц 46
2.5 Трудности извлечения данных из веб страниц и способы их решения 49
2.6 Выводы ко второму разделу 50
3 ПРОЕКТИРОВАНИЕ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ВЕБ-РЕСУРСОВ СИСТЕМ ЦИФРОВОГО БИЗНЕСА 52
3.1 Требования и задачи программного продукта 52
3.2 Программный проект 53
3.3 Разработка требований 54
3.3.1 Моделирование прецедентов 55
3.3.2 Используемые средства и технологии 57
3.4Детализированный дизайн 57
3.4.1 Веб приложение DBS 57
3.4.2 Веб сервис Scrapyd 59
3.5 Выводы по третьему разделу 60
4 АНАЛИЗ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ 62
4.1 Обеспечение качества информационной системы извлечения данных из веб-ресурсов систем цифрового бизнеса 62
4.2 Протокол проведения функционального тестирования 63
4.3 Руководство пользователя 65
4.4 Применение разработанной методики на практике 66
4.5 Результаты работы программы 70
4.6 Выводы по четвертому разделу 75
ВЫВОДЫ 76
ПЕРЕЧЕНЬ ССЫЛОК 79
ПРИЛОЖЕНИЕ А ЛИСТИНГ ПРОГРАММЫ 95
ПРИЛОЖЕНИЕ Б РЕЗУЛЬТАТЫ РАБОТЫ ПРОГРАММЫ 99



Используемая литература

1. Эльфадил Хамза. Analyze of the most popular web data extraction tools / Хамза Эльфадил // Материалы Восьмой Международной научной конференции студентов и молодых ученых «Современные информационные технологии 2018» МИТ-2018 / МОН Украины; Одес. Нал. политех. ун-т: Ин-т компьют. систем — Одесса: Экология, 2018. — С. 11 — 14.
2. Найдич А. Big Data: проблема, технология, рынок [Электронный ресурс]. URL: http://compress.ru/article.aspx?id=22725 (дата обращения: 20.10.2019).
3. Паклин Н.Б. Бизнес-аналитика: от данных к знаниям / Н.Б. Паклин, В.И. Орешков. СПб .: Питер, 2009. 624 с .: ил.
4. Инфографика [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8 % D0% BA% D0% B0 (дата обращения: 20.06.2019).
5. ETL [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/ETL (дата обращения: 20.06.2019).

и еще 25 источников



Предыдущая запись

Следующая запись