[Специалист] Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2018)

SLIVATOR Оффлайн

SLIVATOR

Без бороды и бубна
Команда форума
Регистрация
18 Апр 2017
Reaction score
23,951
RUB
32,143
Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2018)

praksik

Программа курса


Модуль 1. Постановка задачи
  • Задачи хранения, обработки и анализа текстов
  • Строковые типы данных: VarChar, Text
  • Работа с текстом в формате «юникод»: NVarChar, SCSU
  • Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов
  • Хранение текста в файлах и файловых таблицах: FileStream, FileTables
  • Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты
  • Загрузка текста в базу данных: OpenRowset-BULK
  • Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки
  • Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический
  • Параметризация поиска: язык запросов, операторы, параметры
  • Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача
  • Оценка качества поиска: точность, отклик, производительность

Модуль 2. Простые средства текстового поиска
  • Поисковые строковые функции: CharIndex, PatIndex
  • Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower
  • Поиск по шаблону: LIKE
  • Использование регулярных выражений: VBScript.RegExp, Regex.Match

Модуль 3. Механизм полнотекстового поиска
  • Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление
  • Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable
  • Логические выражения в полнотекстовых запросах: AND, OR, NOT
  • Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS
  • Весовые коэффициенты и расстояния: NEAR, WEIGHT

Модуль 4. Подготовка результатов поиска
  • Табличный вывод результатов: соединение с ContainsTable и FreeTextTable
  • Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ
  • Ранжирование: простое, взвешенное, с колоночными мультипликаторами
  • Постраничная выдача: Row_Number, OFFSET, FETCH
  • Параметризация поиска: простые и сложные формы, язык запросов

Модуль 5. Языковые особенности
  • Языковая разметка текста: LCID, xml:lang, индексирование, парсинг
  • Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML
  • Морфология: генерализация, парсинг
  • Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту
  • Синонимы: THESAURUS, подстановки и расширения
  • Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов

Модуль 6. Подготовка баз данных
  • Серверные компоненты полнотекстового поиска: установка и настройка
  • Ресурсы операционной системы: службы, фильтры, файлы
  • Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы
  • Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска
  • Выбор механизма хранения: BLOB, XML, текст, FileStream
  • Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты
  • Настройка шумовых слов: подключение, влияние на индексирование
  • Создание и настройка полнотекстовых индексов: режим отслеживания, обновление
  • Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление

Модуль 7. Эксплуатация и устранение проблем
  • Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF
  • Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события
  • Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка

Модуль 8. Расширение полнотекстового поиска
  • Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы
  • Фонетический поиск: Soundex, Difference: NYSIIS
  • Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS
  • Анализ N-грамм: триграммы, 4-граммы,
  • Векторный анализ текста: простые и взвешенные координаты
  • Задачи класса «Text Mining»: NLP
Подробнее: https://www.specialist.ru/course/praksik

Для просмотра содержимого вам необходимо авторизоваться.
 

Пользователи, которые просматривали тему (Всего: 1)

Поделиться страницей

Сверху