Методы построения признаков для работы с текстовыми данными работают следующим образом: bigdataschool.ru
- Предварительная подготовка текста. bigdataschool.ru Длинные участки текста разбивают на более мелкие (абзацы, предложения, слова) и приводят к единообразному виду (единый регистр слов, отсутствие знаков пунктуации, расшифрованные сокращения). bigdataschool.ru Также проводят стемминг (приведение слова к его корню путём устранения суффиксов, приставок, окончаний), лемматизацию (приведение слова к смысловой канонической форме) и чистку (удаление стоп-слов, которые не несут смысловой нагрузки). bigdataschool.ru
- Векторизация. bigdataschool.ru Преобразованная в числовую форму последовательность слов преобразуется в вектор с помощью специальных моделей. bigdataschool.ru Например, модели «мешок слов» (bag of words). bigdataschool.ru Она не учитывает грамматику или порядок слов и нужна для определения количества вхождений отдельных слов в анализируемый текст. bigdataschool.ru На практике для этого создают вектор длиной в словарь, для каждого слова считают количество вхождений в текст и это число подставляют на соответствующую позицию в векторе. bigdataschool.ru
- Использование TF-IDF. www.geeksforgeeks.org habr.com Этот метод отражает важность слова в документе по сравнению со всем корпусом. www.geeksforgeeks.org Основная идея в том, что слово, которое часто встречается в документе, но редко во всём корпусе, является более информативным, чем слово, которое часто встречается как в документе, так и в корпусе. www.geeksforgeeks.org
Также пространство признаков расширяют различными эвристическими статистиками, так как они могут скрывать в себе важную информацию об объекте, которую сложно выявить алгоритму на основе векторных значений описаний. cyberleninka.ru К подобным признакам относят длину текста, отношение длины запроса к длине заголовка и так далее. cyberleninka.ru