Індексацію документів — реферат



Зміст Запровадження 2 Глава 1 Довідкові інформаційні системи 3 Глава 2 Індексацію, ж проблеми і плюси 8 Укладання 16 Список використаної літератури 17 Запровадження Операційні системи та мови програмування орієнтовані на специфічні параметри логічного і зниження фізичної організації баз даних; для описи баз даних недостатньо стандартних прикладних програм, потрібен спеціальний програмне забезпечення, створюване і обрабатываемое з допомогою програмних засобів (мови програмування СУБД); доступом до даним вимагає розробки спеціальних алгоритмів і більше управляючих програм. У операційні системи і мовами програмування не розроблено питання спеціальної обробки баз даних (цілісність і суперечливість даних, декомпозиція запитів, паралельне виконання транзакцій; не передбачені операції реляційної алгебри, необхідних реляционных базах даних. Індексацію - проставление при реєстрації порядкових номерів і необхідних умовних позначень, вказують місце складання або збереження документа. Як умовних позначень можна використовувати порядкові номери (коди) з класифікатора постійних кореспондентів, структурних підрозділів чи посадових осіб, питань роботи і т. буд. Полнотекстовая індексація. Удосконалення і розповсюдження систем оптичного розпізнавання тексту, і навіть вдосконалення алгоритмів, заснованих на виключно елементах штучного інтелекту, вивели на Майдані сцену метод автоматичної повнотекстової індексації (Full Text Retrieval). Мета цієї роботи: вивчити поняття індексації документів. Завдання проаналізувати плюсів і мінусів індексації документів. Глава 1 Довідкові інформаційні системи По сутності систему управління базами даних (СУБД) є інструментом можливостей ОС під час роботи з базами даних. Організацію баз даних (БД) можна аналізувати обабіч: під кутом зору внемашиной логіки взаємозв'язку об'єктів і з погляду її наступної внутримашинной фізичної реалізації [132, з. 104-119]. Логические ставлення до властивості і взаєминах об'єктів предметної області визначають побудовою зовнішньої, информационно-логической моделі, яка залежить від способів фізичного розміщення даних. У такій моделі об'єкти представлені типами записів, властивості — полями записів, натомість взаємини — зв'язками між типами і полями записів. Наочне зображення логічного моделі можливо двома шляхами: графічним, коли схема будується як орієнтованого графа з вершинами типів записів і дугами зв'язків, і табличным, де кожному типу записи (об'єкту) відповідає таблиця з безліччю полів і (властивостей). Відомі три різновиду информационно-логической моделі. Иерархическая модель баз даних (ИМД) полягає в графічному способі передбачає пошук даних із однієї з гілок «дерева», у якому кожна вершина має сенс тільки одну зв'язку з вершиною вищого рівня. Для пошуку необхідно вказати повний шлях до даних, починаючи з кореневого елемента. Мережевий модель баз даних (СМД) також на графічному способі, але допускає ускладнення «дерева» без обмеження кількості зв'язків, які входять у вершину. Це дозволяє будувати складні пошукові структури. Реляционная модель баз даних (РМД) реалізує табличний спосіб. У РМД таблиця називається ставленням, рядок — кортежем, а стовпчики — атрибутами. Область, у якій перебуває підмножина можливих значень атрибута, є областю визначення атрибута — доменом. Характер таблиці (відносини) визначається як кількістю кортежів числом атрибутів п, яка визначає арность відносини. При над одного атрибута (п=1) ставлення називається унарным, двох атрибутів (п=2) — бінарним, трьох атрибутів (п=3) — тернарным тощо. буд. Основну вимогу до відношенню РМД у тому, що значення атрибутів повинні прагнути бути елементарної, неподільної інформаційної одиницею, що відкриває можливість застосування з метою обробки математичного апарату реляційної алгебри. Треба враховувати, що: по-перше фіксований порядок прямування атрибутів не грає особливій ролі і припустима будь-яка послідовність їх опрацювання; по-друге, порядок прямування картежей байдужий; по-третє, ставлення неспроможна мати двох однакових кортежів. Фундаментальна обізнаність із реляційної моделлю часто включає видалення і додавання кортежів і атрибутів, що веде до спотворення інформації та зумовлює необхідність нормалізації — приведення відносин і до нормалізації – приведення відносин і до нормальної формі (НФ) відповідно до описаними раніше основними вимогами. Використовуються чотири нормальні форми: перша (1 НФ), друга (2 НФ) третя (3 НФ), четверта (4 НФ). Кожна форму нормалізації досягається проведенням відповідного етапу нормалізації. Усі відносини обов'язково має перебувати у вигляді 1 НФ, що забезпечується застосуванням декомпозиції (поділу) стосунки еквівалентну сукупність відносин нижчого рівня. Конкретні засоби і способи розміщення даних, достойні логічного моделі, у фізичній середовищі зберігання, визначають побудова внутрішньої, фізичної моделі організації баз даних. Фізична модель має відповідати наступним вимогам: Збереженню змісту логічного моделі; Максимальної економії зовнішньої пам'яті; Минимизации витрат з управлінню даними; Максимальному швидкодії у пошуку і за обробці запитів; Фізичне моделювання здійснюється засобами СУБД: мовою описи даних (ЯОД), мовою маніпулювання даними (ЯМД), структурами збереження і пошуку. Создаваемые моделі можуть базуватися на структурі зберігання даних, чи поєднувати структуру зберігання з пошуковими структурами. У разі, після завершення етапу фізичного моделювання у пам'яті ЕОМ з'являються файл бази даних, і файли пошукових структур. До пошукових відносять такі: