Автоматическая кластеризация близких по смыслу слов

Витвицкий С.В. Автоматическая кластеризация близких по смыслу слов

Основные понятия Нас интересует проблема выявления смысла слов по коллекции текстов, и, соответственно, «поведения» задаваемых сущностей в описываемом мире. Смысл должен отражаться в контекстах употребления соответствующих слов в предложениях текстов. Контексты употребления слов: Линейные – набор окружающих слов. Синтаксические – с какими словами данное слово связано синтаксически. Вектор контекста слова W – множество элементов вида <w,I> , где w – слово, с которым слово W связано синтаксически, а I – некоторая информация об этой синтаксической связи. Под синтаксическим контекстом слова будем понимать это же множество. Смысл слов будем рассматривать через их синтаксические контексты.

Постановка задачи Надо научиться: автоматически выделять из корпуса текстов контексты слов. измерять смысловое сходство слов через сходство их контекстов, которое также надо определённым образом измерять. выявлять близкие по смыслу слова некоторым образом объединять похожие слова в кластеры (группы) Затем обработать достаточно большую коллекцию текстов для выявления проблем и направления дальнейших действий. Применение: Автоматическое построение тезаурусов Искусственный интеллект (машинное обучение, описание предметных областей) и т.п.

План своей работы: Для некоторой достаточно большой базы русскоязычных текстов построить синтаксические контексты для всех достаточно употребляемых слов. Выбрать способ исследования слов на предмет сходства синтаксических контекстов и выявить для каждого слова список достаточно схожих с ним слов. Построить множество кластеров сходных по смыслу слов.

Синтаксические контексты База русскоязычных новостных текстов (примерно 17 000 документов) Требуется получить список пар вида <W,T> , где W – слово, T – его вектор контекста. Схема работы:

Синтаксические контексты Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ

Синтаксические контексты Пример: Результат: синтаксический разбор текста множество синтаксических структур

Синтаксические контексты Пример: Фильтр по отношениям ПРИЛ_СУЩ (длинная дорога) 2) ГЕНИТ_ИГ (рука Москвы) 3) ПРЯМ_ДОП (рубить дрова) 4) ПОДЛ (я пошел) 5) ГЛАГ_ИНФ (пойти выпить)

Синтаксические контексты Пример: Взятие нормальных форм слов. Проблема неоднозначных слов.

Синтаксические контексты Коллекция русскоязычных новостных документов объёмом порядка 17000 текстов. Построено множество без повторов четвёрок вида <r,w1,w2, c> , где r – синтаксическое отношение, w1 и w2 – слова в нормальной форме, c – количество троек <r,w1,w2> в коллекции документов, тройки <r,w1,w2> уникальны. ~ 210000 таких элементов. Примеры: ПОДЛ БЫТЬ ПРОЕКТ 92 ПРЯМ_ДОП ПОДАВИТЬ ОППОЗИЦИЯ 5 ПРИЛ_СУЩ КАМПАНИЯ ИЗБИРАТЕЛЬНЫЙ 144 Фильтр по частоте вхождения (5). Строился список слов в нормальной форме с количеством их вхождений в рассмотренную базу. Применялся фильтр по частоте вхождения (30)

Синтаксические контексты Пусть W – слово в нормальной форме, а S – ранее введённое множество четвёрок вида <r,w1,w2,c> . Синтаксический контекст слова W : Изначально это пустой список. Среди всех элементов S ищутся четвёрки вида <r,W,w,c> либо <r,w,W,c> , т.е. все вхождения W. Для каждой такой четвёрки вычисляется функция I(W,r,w) . * - произвольное слово Если I(W,r,w) > 0 , то в T добавляется элемент <r,w> . где |W,r,w| - сумма значений c по вхождениям <r,w,W> или <r,W,w>

Синтаксические контексты Смысл I (Hindle, 1990) : пусть для |r,w,w ’ , c | мы не знаем c . События: А: случайно выбранное слово есть w; B: случайно выбранное отношение есть r; C: случайно выбранное слово есть w ’ Вероятность наступления B , при нём A и C составляет Если же c известно, то Это нужно, чтобы отсеять «случайные» пары. Вычисленное значение I потребуется в дальнейшем.

Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ВОЛОГОДСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ЛЕСОПРОМЫШЛЕННИК ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЪЕДИНЕНИЕ ПРИЛ_СУЩ МЯСОКОМБИНАТ ПРИЛ_СУЩ МАШИНА ПРИЛ_СУЩ СКОРЫЙ САРАТОВСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ МЕЧЕТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ДУМА

Синтаксические контексты Пример: ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ СФАЛЬСИФИЦИРОВАТЬ ПОДЛ ОНИ ПРИЛ_СУЩ ВЫБОРЫ ПРЯМ_ДОП РЕЗУЛЬТАТ ПОДЛ ЯНУКОВИЧ ПРИЛ_СУЩ РЕЗУЛЬТАТ ПОДЛ ЦИК ПОДЛ ИТОГ ИЮЛЬ ГЕНИТ_ИГ ГОД ПРИЛ_СУЩ РАНЕНЫЙ ГЕНИТ_ИГ ВЕЩАНИЕ ГЕНИТ_ИГ СЕРЕДИНА ГЕНИТ_ИГ РУБЛЬ ГЕНИТ_ИГ НАЧАЛО ГЕНИТ_ИГ КУЧМА ГЕНИТ_ИГ КОНЕЦ ГЕНИТ_ИГ ЗРИТЕЛЬ

Меры подобия слов

Меры подобия слов Пример:

Меры подобия слов: Замечания Меры cosine, dice, jacard используют количество вхождений слов лишь неявно. Остальные рассмотренные меры явно используют значения функции I(W,r,w) . Для мер cosine, dice, jacard, lin коэффициент подобия двух слов не превышает единицы. Результаты применения мер cosine, dice, jacard, lin отличаются между собой не сильно, а результаты применения мер hindle отличаются существенно. Для каждого слова строился список самых близких слов слов.

Кластеризация похожих слов Есть N элементов и матрица NxN расстояний между элементами. Надо разделить элементы на группы по степени близости. Кластеризация – итеративный процесс. Методы: способ выбора кластеров, способ определения расстояния между кластерами. Наш алгоритм: Элементы – слова, каждое слово является кластером. Расстояние между кластерами – среднее расстояние между элементами первого кластера и элементами второго кластера. На каждом шаге два самых близких кластера объединяются в один. Конец - когда остался один кластер. Методология

Кластеризация похожих слов Пример: НАГРАДА 0,28354 ДИПЛОМ ПРИЗ 0,28690 ДИПЛОМ ДИПЛОМ 0,28354 НАГРАДА 0,28690 ПРИЗ

Кластеризация похожих слов Пример: СРЕДНЕСРОЧНЫЙ 0,27854 ИНВЕСТИЦИОННЫЙ ИНВЕСТИЦИОННЫЙ 0,27854 СРЕДНЕСРОЧНЫЙ ПЕРЕДАВАТЬ 0,30000 СООБЩАТЬ СООБЩАТЬ 0,30000 ПЕРЕДАВАТЬ ИСКАЗИТЬ 0,38490 СФАЛЬСИФИЦИРОВАТЬ СФАЛЬСИФИЦИРОВАТЬ 0,38490 ИСКАЗИТЬ

Кластеризация похожих слов Пример:

Кластеризация похожих слов Пример: Поддеревья, полученные из исходного дерева отсечением по неположительному весу

Кластеризация похожих слов Пример: Полученные кластеры похожих по смыслу слов

Проблемы Проблема «неоднозначности» слов. Проблема «странных» групп. Проблема кластеризации слов, имеющих «неоднозначный» смысл. Слово должно быть отнесено к нескольким кластерам, а не к одному Пример: берет/берёт Решение – другой алгоритм кластеризации

Обзор существующих решений Dekang Lin , Patrick Pantel , University of Manitoba , Canada Размеченный корпус англоязычных текстов Извлекались тройки вида |r,w1,w2| , где r – синтаксическое отношение, w1, w2 – слова, с количеством вхождений в текст. 8,7 млн уникальных троек. Особенности: Слова разбивались на классы по части речи Исследовались слова внутри одного класса Ограничение на количество вхождений слов (100) Мера подобия - lin . Для каждого слова составлен тезаурус из 200 наиболее близких слов.

Обзор существующих решений Пример: brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04, ... brief (verb): tell 0.09, urge 0.07, ask 0.07, meet 0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective): lengthy 0.13, short 0.12, recent 0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...

Обзор существующих решений Вопрос сравнения автоматически созданного тезауруса и тезаурусов, созданных вручную – Roget и WordNet . Преобразование тезаурусов к виду: Вопрос меры подобия тезаурусов. Для слова w вводится коэффициент Мера подобия - его среднее значение по множеству наиболее употребляемых слов

Обзор существующих решений Значение коэффициента подобия между тезаурусом авторов и WordNet – 0.297, а между Roget и WordNet – 0 Пример: Тезаурус авторов brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04. WordNet brief (noun): outline 0.96, instrument 0.84, summary 0.84, affidavit 0.80, deposition 0.80, law 0.77, survey 0.74, sketch 0.74, resume 0.74, argument 0.74. Roget brief (noun): recital 0.77, saga 0.77, autobiography 0.77, anecdote 0.77, novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.

Обзор существующих решений Построены тезаурусы на основе мер lin, Hindler, Hindle r и cosine Сравнение с WordNet, Roget Выводы: Автоматические построенные тезаурусы более похожи на построенный вручную WordNet , чем Roget , но WordNet похож на Roget больше них. Hindle r лучше Hindle . sim (lin) лучшая мера подобия.

Обзор существующих решений Алгоритм кластеризации CBC (Clustering By Committee) Мера подобия слов - cosine . Решена проблема жесткой кластеризации - многозначных слов Каждый кластер, в котором состоит слово, раскрывает его некий смысл Принципиально иная идея кластеризации Ищутся всевозможные кластеры на основе подобия с методом взвешенного среднего. Среди них формируется множество достаточно хороших (в частности, по включению) кластеров (комитетов). Каждое слово приписывается ко всем возможным комитетам.

Обзор существующих решений Полученный ранее список похожих слов для слова suit и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim, business suit, … ( suit Nq34 0.39 (blouse, slack, legging, sweater) Nq137 0.20 (lawsuit, allegation, case, charge) )

Заключение Обработана коллекция русскоязычных новостных документов объёмом 17000 текстов. Рассмотрены основные способы определения смысловой близости слов. Сделан обзор полученных к настоящему моменту результатов по данной тематике для англоязычных текстов. Предложен некоторый алгоритм автоматического выделения кластеров похожих слов из русскоязычного текста. Выявлены проблемы, которые подлежат дальнейшему изучению и разрешению.

Литература « Automatic Retrieval and Clustering of Similar Words » Dekang Lin , Department of Computer Science , University of Manitoba, Canada , 1998 « Discovering Word Senses from Text » Patrick Pantel , Dekang Lin , Department of Computing Science , University of Alberta Edmonton, Canada , 2003

Автоматическая кластеризация близких по смыслу слов

More Related Content

Similar to Автоматическая кластеризация близких по смыслу слов (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Автоматическая кластеризация близких по смыслу слов