Витвицкий С.В. Автоматическая кластеризация близких по смыслу слов
Основные понятия Нас интересует проблема выявления смысла слов по коллекции текстов, и, соответственно, «поведения» задаваемых сущностей в описываемом мире. Смысл должен отражаться в контекстах употребления соответствующих слов в предложениях текстов. Контексты употребления  слов: Линейные – набор окружающих слов. Синтаксические –  с какими словами данное слово связано синтаксически. Вектор контекста  слова  W –  множество элементов вида  <w,I> , где  w  – слово, с которым слово  W  связано синтаксически, а  I –  некоторая информация об этой синтаксической связи. Под  синтаксическим контекстом  слова будем понимать это же множество. Смысл слов будем рассматривать через их синтаксические контексты.
Постановка задачи Надо научиться: автоматически выделять из корпуса текстов контексты слов. измерять смысловое сходство слов через сходство их контекстов, которое также надо определённым образом измерять. выявлять близкие по смыслу слова некоторым образом объединять похожие слова в кластеры (группы) Затем обработать достаточно большую коллекцию текстов для выявления проблем и направления дальнейших действий. Применение: Автоматическое построение тезаурусов Искусственный интеллект (машинное обучение, описание предметных областей) и т.п.
План своей работы: Для некоторой достаточно большой базы русскоязычных текстов построить синтаксические контексты для всех достаточно употребляемых слов. Выбрать способ исследования слов на предмет сходства синтаксических контекстов и выявить для каждого слова список достаточно схожих с ним слов. Построить множество кластеров сходных по смыслу слов.
Синтаксические контексты База русскоязычных новостных текстов (примерно 17 000 документов) Требуется получить список пар вида  <W,T> , где  W –  слово,  T  – его вектор контекста. Схема работы:
Синтаксические контексты Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
Синтаксические контексты Пример: Результат: синтаксический разбор текста множество синтаксических структур
Синтаксические контексты Пример: Фильтр по отношениям ПРИЛ_СУЩ (длинная дорога) 2) ГЕНИТ_ИГ (рука Москвы) 3) ПРЯМ_ДОП (рубить дрова) 4) ПОДЛ (я пошел) 5)  ГЛАГ_ИНФ (пойти выпить)
Синтаксические контексты Пример: Взятие нормальных форм слов.  Проблема неоднозначных слов.
Синтаксические контексты Коллекция русскоязычных новостных документов объёмом порядка 17000 текстов. Построено множество без повторов четвёрок вида  <r,w1,w2, c> , где  r –  синтаксическое отношение,  w1  и  w2 –  слова в нормальной форме,  c –  количество троек  <r,w1,w2>  в коллекции документов, тройки  <r,w1,w2>  уникальны.  ~ 210000 таких элементов. Примеры:  ПОДЛ БЫТЬ ПРОЕКТ 92 ПРЯМ_ДОП ПОДАВИТЬ ОППОЗИЦИЯ 5 ПРИЛ_СУЩ КАМПАНИЯ ИЗБИРАТЕЛЬНЫЙ 144 Фильтр по частоте вхождения (5).  Строился список слов в нормальной форме с количеством их вхождений в рассмотренную базу.  Применялся фильтр по частоте вхождения (30)
Синтаксические контексты Пусть  W –  слово в нормальной форме, а  S –  ранее введённое множество четвёрок вида  <r,w1,w2,c> .  Синтаксический контекст слова  W : Изначально это пустой список.  Среди всех элементов  S  ищутся четвёрки вида  <r,W,w,c>  либо  <r,w,W,c> , т.е. все вхождения  W.   Для каждой такой четвёрки вычисляется функция  I(W,r,w) . *  - произвольное слово Если  I(W,r,w) > 0 , то в  T  добавляется элемент  <r,w> . где  |W,r,w| -  сумма значений  c   по вхождениям  <r,w,W>  или  <r,W,w>
Синтаксические контексты Смысл  I (Hindle, 1990) :   пусть для  |r,w,w ’ , c |  мы не знаем  c . События:  А:  случайно выбранное слово есть  w;  B:  случайно выбранное отношение есть  r;   C:  случайно выбранное слово есть  w ’ Вероятность наступления  B , при нём  A  и  C  составляет Если же  c  известно, то Это нужно, чтобы отсеять «случайные» пары.  Вычисленное значение  I  потребуется в дальнейшем.
Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ВОЛОГОДСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ЛЕСОПРОМЫШЛЕННИК ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЪЕДИНЕНИЕ ПРИЛ_СУЩ МЯСОКОМБИНАТ ПРИЛ_СУЩ МАШИНА ПРИЛ_СУЩ СКОРЫЙ САРАТОВСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ МЕЧЕТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ДУМА
Синтаксические контексты Пример: ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ СФАЛЬСИФИЦИРОВАТЬ ПОДЛ ОНИ ПРИЛ_СУЩ ВЫБОРЫ ПРЯМ_ДОП РЕЗУЛЬТАТ ПОДЛ ЯНУКОВИЧ ПРИЛ_СУЩ РЕЗУЛЬТАТ ПОДЛ ЦИК ПОДЛ ИТОГ ИЮЛЬ ГЕНИТ_ИГ ГОД ПРИЛ_СУЩ РАНЕНЫЙ ГЕНИТ_ИГ ВЕЩАНИЕ ГЕНИТ_ИГ СЕРЕДИНА ГЕНИТ_ИГ РУБЛЬ ГЕНИТ_ИГ НАЧАЛО ГЕНИТ_ИГ КУЧМА ГЕНИТ_ИГ КОНЕЦ ГЕНИТ_ИГ ЗРИТЕЛЬ
Меры подобия слов
Меры подобия слов Пример:
Меры подобия слов Пример:
Меры подобия слов Пример:
Меры подобия слов: Замечания Меры  cosine, dice, jacard  используют количество вхождений слов лишь неявно. Остальные рассмотренные меры явно используют значения функции  I(W,r,w) . Для мер  cosine, dice, jacard, lin  коэффициент подобия двух слов не превышает единицы. Результаты применения мер  cosine, dice, jacard, lin  отличаются между собой не сильно,  а результаты применения мер  hindle  отличаются существенно. Для каждого слова строился список самых близких слов слов.
Кластеризация похожих слов Есть  N  элементов и матрица  NxN  расстояний между элементами. Надо разделить элементы на группы по степени близости. Кластеризация – итеративный процесс. Методы: способ выбора кластеров, способ определения расстояния между кластерами. Наш алгоритм:  Элементы – слова, каждое слово является кластером. Расстояние между кластерами – среднее расстояние между элементами первого кластера и элементами второго кластера. На каждом шаге два самых близких кластера объединяются в один.  Конец - когда остался один кластер. Методология
Кластеризация похожих слов Пример: НАГРАДА 0,28354  ДИПЛОМ ПРИЗ 0,28690  ДИПЛОМ ДИПЛОМ 0,28354  НАГРАДА 0,28690  ПРИЗ
Кластеризация похожих слов Пример: СРЕДНЕСРОЧНЫЙ 0,27854  ИНВЕСТИЦИОННЫЙ ИНВЕСТИЦИОННЫЙ 0,27854  СРЕДНЕСРОЧНЫЙ ПЕРЕДАВАТЬ 0,30000  СООБЩАТЬ СООБЩАТЬ 0,30000  ПЕРЕДАВАТЬ ИСКАЗИТЬ 0,38490  СФАЛЬСИФИЦИРОВАТЬ СФАЛЬСИФИЦИРОВАТЬ 0,38490  ИСКАЗИТЬ
Кластеризация похожих слов Пример:
Кластеризация похожих слов Пример: Поддеревья, полученные из исходного дерева  отсечением по неположительному весу
Кластеризация похожих слов Пример: Полученные кластеры похожих по смыслу слов
Проблемы Проблема «неоднозначности» слов. Проблема «странных» групп.  Проблема кластеризации слов, имеющих «неоднозначный» смысл.  Слово должно быть отнесено к нескольким кластерам, а не к одному Пример: берет/берёт Решение – другой алгоритм кластеризации
Обзор существующих решений Dekang Lin ,  Patrick Pantel ,  University of Manitoba ,  Canada Размеченный корпус англоязычных текстов Извлекались тройки вида  |r,w1,w2| , где  r –  синтаксическое отношение,  w1, w2 –  слова,  с количеством вхождений в текст.  8,7 млн уникальных троек.  Особенности: Слова разбивались на классы по части речи Исследовались слова внутри одного класса Ограничение на количество вхождений слов (100) Мера подобия -  lin . Для каждого слова составлен тезаурус из 200 наиболее близких слов.
Обзор существующих решений Пример: brief (noun):  affidavit 0.13, petition 0.05, memorandum  0.05, motion 0.05, lawsuit 0.05, deposition   0.05, slight 0.05, prospectus 0.04, document   0.04 paper 0.04, ... brief (verb):  tell 0.09, urge 0.07, ask 0.07, meet   0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective):  lengthy 0.13, short 0.12, recent   0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
Обзор существующих решений Вопрос сравнения автоматически созданного тезауруса и тезаурусов, созданных вручную –  Roget  и  WordNet . Преобразование тезаурусов к виду: Вопрос меры подобия тезаурусов. Для слова  w вводится коэффициент Мера подобия - его среднее значение по множеству наиболее употребляемых слов
Обзор существующих решений Значение коэффициента подобия между тезаурусом авторов и  WordNet –  0.297, а между  Roget  и  WordNet – 0 Пример: Тезаурус авторов brief (noun):  affidavit  0.13, petition 0.05,   memorandum 0.05, motion 0.05, lawsuit 0.05,   deposition  0.05, slight 0.05, prospectus 0.04,   document 0.04 paper 0.04. WordNet brief (noun):  outline 0.96, instrument 0.84, summary 0.84,  affidavit  0.80,  deposition  0.80, law 0.77, survey 0.74, sketch 0.74,   resume 0.74, argument 0.74. Roget brief (noun):  recital 0.77, saga 0.77, autobiography 0.77,  anecdote 0.77, novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.
Обзор существующих решений Построены тезаурусы на основе мер  lin, Hindler, Hindle r   и  cosine Сравнение с  WordNet, Roget Выводы: Автоматические построенные тезаурусы более похожи на построенный вручную  WordNet , чем  Roget , но  WordNet  похож на  Roget  больше них. Hindle r   лучше  Hindle . sim (lin)  лучшая мера подобия.
Обзор существующих решений Алгоритм кластеризации  CBC (Clustering By Committee)   Мера подобия слов -  cosine . Решена проблема жесткой кластеризации - многозначных слов  Каждый кластер, в котором состоит слово, раскрывает его некий смысл Принципиально иная идея кластеризации Ищутся всевозможные кластеры на основе подобия с методом взвешенного среднего.  Среди них формируется множество достаточно хороших (в частности, по включению) кластеров (комитетов). Каждое слово приписывается ко всем возможным комитетам.
Обзор существующих решений Полученный ранее список похожих слов для слова  suit  и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim,   business suit,  … ( suit Nq34 0.39 (blouse, slack, legging,   sweater) Nq137 0.20 (lawsuit, allegation, case,   charge) )
Заключение Обработана коллекция русскоязычных новостных документов объёмом 17000 текстов. Рассмотрены основные способы определения смысловой близости слов. Сделан обзор полученных к настоящему моменту результатов по данной тематике для англоязычных текстов. Предложен некоторый алгоритм автоматического выделения кластеров похожих слов из русскоязычного текста. Выявлены проблемы, которые подлежат дальнейшему изучению и разрешению.
Литература « Automatic Retrieval and Clustering of Similar Words » Dekang Lin ,  Department of Computer Science ,  University of Manitoba, Canada , 1998 « Discovering Word Senses from Text » Patrick Pantel ,  Dekang Lin ,  Department of Computing Science ,  University of Alberta   Edmonton, Canada , 2003

More Related Content

PPT
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
PDF
Query expansion
PPTX
Экспертные системы: лекция №5
PDF
Котиков Простые методы выделения ключевых слов и построения рефератов
PPTX
классификация лексики русского языка
PDF
Метрики семантической близости с приложениями к задачам АОТ
PDF
Вычислительная лексическая семантика: метрики семантической близости и их при...
ODP
Word2vec для поискового движка II
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Query expansion
Экспертные системы: лекция №5
Котиков Простые методы выделения ключевых слов и построения рефератов
классификация лексики русского языка
Метрики семантической близости с приложениями к задачам АОТ
Вычислительная лексическая семантика: метрики семантической близости и их при...
Word2vec для поискового движка II

Similar to Автоматическая кластеризация близких по смыслу слов (20)

PDF
Фвтоматическая кластеризация значений многозначных слов
PDF
Реализация метода автоматического разрешения лексической многозначности
PPT
Максим Литвинов
PPT
Извлечение терминологических словосочетаний из текстов
PPT
Разрешение лексической неоднозначности
PPT
RussNet
PPT
Методы морфологического анализа текстов
PDF
Lsa fca spb
DOC
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
PPT
лекция 7 тема 1
PDF
Методы обработки длинных запросов поисковыми системами
PDF
кулагин поиск близких по смыслу языковых выражений
PPT
Программные средства выявления теминологических вариантов в текстах
PPTX
!Predictive analytics part_3
PPTX
Можарова Тематические модели: учет сходства между униграммами и биграммами.
PPT
Ontologies for Information Extraction
PDF
Яндекс Малый ШАД - лингвистика в поиске
PPT
лекция 5 тема 1
PDF
Intro to NLP (RU)
Фвтоматическая кластеризация значений многозначных слов
Реализация метода автоматического разрешения лексической многозначности
Максим Литвинов
Извлечение терминологических словосочетаний из текстов
Разрешение лексической неоднозначности
RussNet
Методы морфологического анализа текстов
Lsa fca spb
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
лекция 7 тема 1
Методы обработки длинных запросов поисковыми системами
кулагин поиск близких по смыслу языковых выражений
Программные средства выявления теминологических вариантов в текстах
!Predictive analytics part_3
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Ontologies for Information Extraction
Яндекс Малый ШАД - лингвистика в поиске
лекция 5 тема 1
Intro to NLP (RU)
Ad

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

PDF
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
PDF
Муромцев. Методы анализа социальных графов и поиска сообществ
PDF
Рой. Аспектный анализ тональности отзывов
PDF
Лукьяненко. Извлечение коллокаций из текста
PPTX
Иванов. Автоматизация построения предметных указателей
PPTX
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
PDF
Сапин. Интеллектуальные агенты и обучение с подкреплением
PDF
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
PDF
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
PDF
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
PDF
Савостин. Системы и методы научного поиска и мониторинга
PPTX
Мищенко. Методы автоматического определения наиболее частотного значения слова.
PPTX
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
PDF
Панфилов. Корпусы текстов и принципы их создания
PDF
Муромцев. Обзор библиографических менеджеров
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
PDF
Баев Системы для обучения программированию
PDF
Тодуа. Методы разработки интерпретатора языка Рефал-2
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Муромцев. Методы анализа социальных графов и поиска сообществ
Рой. Аспектный анализ тональности отзывов
Лукьяненко. Извлечение коллокаций из текста
Иванов. Автоматизация построения предметных указателей
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Сапин. Интеллектуальные агенты и обучение с подкреплением
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савостин. Системы и методы научного поиска и мониторинга
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Панфилов. Корпусы текстов и принципы их создания
Муромцев. Обзор библиографических менеджеров
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Баев Системы для обучения программированию
Тодуа. Методы разработки интерпретатора языка Рефал-2
Ad

Автоматическая кластеризация близких по смыслу слов

  • 1. Витвицкий С.В. Автоматическая кластеризация близких по смыслу слов
  • 2. Основные понятия Нас интересует проблема выявления смысла слов по коллекции текстов, и, соответственно, «поведения» задаваемых сущностей в описываемом мире. Смысл должен отражаться в контекстах употребления соответствующих слов в предложениях текстов. Контексты употребления слов: Линейные – набор окружающих слов. Синтаксические – с какими словами данное слово связано синтаксически. Вектор контекста слова W – множество элементов вида <w,I> , где w – слово, с которым слово W связано синтаксически, а I – некоторая информация об этой синтаксической связи. Под синтаксическим контекстом слова будем понимать это же множество. Смысл слов будем рассматривать через их синтаксические контексты.
  • 3. Постановка задачи Надо научиться: автоматически выделять из корпуса текстов контексты слов. измерять смысловое сходство слов через сходство их контекстов, которое также надо определённым образом измерять. выявлять близкие по смыслу слова некоторым образом объединять похожие слова в кластеры (группы) Затем обработать достаточно большую коллекцию текстов для выявления проблем и направления дальнейших действий. Применение: Автоматическое построение тезаурусов Искусственный интеллект (машинное обучение, описание предметных областей) и т.п.
  • 4. План своей работы: Для некоторой достаточно большой базы русскоязычных текстов построить синтаксические контексты для всех достаточно употребляемых слов. Выбрать способ исследования слов на предмет сходства синтаксических контекстов и выявить для каждого слова список достаточно схожих с ним слов. Построить множество кластеров сходных по смыслу слов.
  • 5. Синтаксические контексты База русскоязычных новостных текстов (примерно 17 000 документов) Требуется получить список пар вида <W,T> , где W – слово, T – его вектор контекста. Схема работы:
  • 6. Синтаксические контексты Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
  • 7. Синтаксические контексты Пример: Результат: синтаксический разбор текста множество синтаксических структур
  • 8. Синтаксические контексты Пример: Фильтр по отношениям ПРИЛ_СУЩ (длинная дорога) 2) ГЕНИТ_ИГ (рука Москвы) 3) ПРЯМ_ДОП (рубить дрова) 4) ПОДЛ (я пошел) 5) ГЛАГ_ИНФ (пойти выпить)
  • 9. Синтаксические контексты Пример: Взятие нормальных форм слов. Проблема неоднозначных слов.
  • 10. Синтаксические контексты Коллекция русскоязычных новостных документов объёмом порядка 17000 текстов. Построено множество без повторов четвёрок вида <r,w1,w2, c> , где r – синтаксическое отношение, w1 и w2 – слова в нормальной форме, c – количество троек <r,w1,w2> в коллекции документов, тройки <r,w1,w2> уникальны. ~ 210000 таких элементов. Примеры: ПОДЛ БЫТЬ ПРОЕКТ 92 ПРЯМ_ДОП ПОДАВИТЬ ОППОЗИЦИЯ 5 ПРИЛ_СУЩ КАМПАНИЯ ИЗБИРАТЕЛЬНЫЙ 144 Фильтр по частоте вхождения (5). Строился список слов в нормальной форме с количеством их вхождений в рассмотренную базу. Применялся фильтр по частоте вхождения (30)
  • 11. Синтаксические контексты Пусть W – слово в нормальной форме, а S – ранее введённое множество четвёрок вида <r,w1,w2,c> . Синтаксический контекст слова W : Изначально это пустой список. Среди всех элементов S ищутся четвёрки вида <r,W,w,c> либо <r,w,W,c> , т.е. все вхождения W. Для каждой такой четвёрки вычисляется функция I(W,r,w) . * - произвольное слово Если I(W,r,w) > 0 , то в T добавляется элемент <r,w> . где |W,r,w| - сумма значений c по вхождениям <r,w,W> или <r,W,w>
  • 12. Синтаксические контексты Смысл I (Hindle, 1990) : пусть для |r,w,w ’ , c | мы не знаем c . События: А: случайно выбранное слово есть w; B: случайно выбранное отношение есть r; C: случайно выбранное слово есть w ’ Вероятность наступления B , при нём A и C составляет Если же c известно, то Это нужно, чтобы отсеять «случайные» пары. Вычисленное значение I потребуется в дальнейшем.
  • 13. Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ВОЛОГОДСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ЛЕСОПРОМЫШЛЕННИК ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЪЕДИНЕНИЕ ПРИЛ_СУЩ МЯСОКОМБИНАТ ПРИЛ_СУЩ МАШИНА ПРИЛ_СУЩ СКОРЫЙ САРАТОВСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ МЕЧЕТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ДУМА
  • 14. Синтаксические контексты Пример: ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ СФАЛЬСИФИЦИРОВАТЬ ПОДЛ ОНИ ПРИЛ_СУЩ ВЫБОРЫ ПРЯМ_ДОП РЕЗУЛЬТАТ ПОДЛ ЯНУКОВИЧ ПРИЛ_СУЩ РЕЗУЛЬТАТ ПОДЛ ЦИК ПОДЛ ИТОГ ИЮЛЬ ГЕНИТ_ИГ ГОД ПРИЛ_СУЩ РАНЕНЫЙ ГЕНИТ_ИГ ВЕЩАНИЕ ГЕНИТ_ИГ СЕРЕДИНА ГЕНИТ_ИГ РУБЛЬ ГЕНИТ_ИГ НАЧАЛО ГЕНИТ_ИГ КУЧМА ГЕНИТ_ИГ КОНЕЦ ГЕНИТ_ИГ ЗРИТЕЛЬ
  • 19. Меры подобия слов: Замечания Меры cosine, dice, jacard используют количество вхождений слов лишь неявно. Остальные рассмотренные меры явно используют значения функции I(W,r,w) . Для мер cosine, dice, jacard, lin коэффициент подобия двух слов не превышает единицы. Результаты применения мер cosine, dice, jacard, lin отличаются между собой не сильно, а результаты применения мер hindle отличаются существенно. Для каждого слова строился список самых близких слов слов.
  • 20. Кластеризация похожих слов Есть N элементов и матрица NxN расстояний между элементами. Надо разделить элементы на группы по степени близости. Кластеризация – итеративный процесс. Методы: способ выбора кластеров, способ определения расстояния между кластерами. Наш алгоритм: Элементы – слова, каждое слово является кластером. Расстояние между кластерами – среднее расстояние между элементами первого кластера и элементами второго кластера. На каждом шаге два самых близких кластера объединяются в один. Конец - когда остался один кластер. Методология
  • 21. Кластеризация похожих слов Пример: НАГРАДА 0,28354 ДИПЛОМ ПРИЗ 0,28690 ДИПЛОМ ДИПЛОМ 0,28354 НАГРАДА 0,28690 ПРИЗ
  • 22. Кластеризация похожих слов Пример: СРЕДНЕСРОЧНЫЙ 0,27854 ИНВЕСТИЦИОННЫЙ ИНВЕСТИЦИОННЫЙ 0,27854 СРЕДНЕСРОЧНЫЙ ПЕРЕДАВАТЬ 0,30000 СООБЩАТЬ СООБЩАТЬ 0,30000 ПЕРЕДАВАТЬ ИСКАЗИТЬ 0,38490 СФАЛЬСИФИЦИРОВАТЬ СФАЛЬСИФИЦИРОВАТЬ 0,38490 ИСКАЗИТЬ
  • 24. Кластеризация похожих слов Пример: Поддеревья, полученные из исходного дерева отсечением по неположительному весу
  • 25. Кластеризация похожих слов Пример: Полученные кластеры похожих по смыслу слов
  • 26. Проблемы Проблема «неоднозначности» слов. Проблема «странных» групп. Проблема кластеризации слов, имеющих «неоднозначный» смысл. Слово должно быть отнесено к нескольким кластерам, а не к одному Пример: берет/берёт Решение – другой алгоритм кластеризации
  • 27. Обзор существующих решений Dekang Lin , Patrick Pantel , University of Manitoba , Canada Размеченный корпус англоязычных текстов Извлекались тройки вида |r,w1,w2| , где r – синтаксическое отношение, w1, w2 – слова, с количеством вхождений в текст. 8,7 млн уникальных троек. Особенности: Слова разбивались на классы по части речи Исследовались слова внутри одного класса Ограничение на количество вхождений слов (100) Мера подобия - lin . Для каждого слова составлен тезаурус из 200 наиболее близких слов.
  • 28. Обзор существующих решений Пример: brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04, ... brief (verb): tell 0.09, urge 0.07, ask 0.07, meet 0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective): lengthy 0.13, short 0.12, recent 0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
  • 29. Обзор существующих решений Вопрос сравнения автоматически созданного тезауруса и тезаурусов, созданных вручную – Roget и WordNet . Преобразование тезаурусов к виду: Вопрос меры подобия тезаурусов. Для слова w вводится коэффициент Мера подобия - его среднее значение по множеству наиболее употребляемых слов
  • 30. Обзор существующих решений Значение коэффициента подобия между тезаурусом авторов и WordNet – 0.297, а между Roget и WordNet – 0 Пример: Тезаурус авторов brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04. WordNet brief (noun): outline 0.96, instrument 0.84, summary 0.84, affidavit 0.80, deposition 0.80, law 0.77, survey 0.74, sketch 0.74, resume 0.74, argument 0.74. Roget brief (noun): recital 0.77, saga 0.77, autobiography 0.77, anecdote 0.77, novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.
  • 31. Обзор существующих решений Построены тезаурусы на основе мер lin, Hindler, Hindle r и cosine Сравнение с WordNet, Roget Выводы: Автоматические построенные тезаурусы более похожи на построенный вручную WordNet , чем Roget , но WordNet похож на Roget больше них. Hindle r лучше Hindle . sim (lin) лучшая мера подобия.
  • 32. Обзор существующих решений Алгоритм кластеризации CBC (Clustering By Committee) Мера подобия слов - cosine . Решена проблема жесткой кластеризации - многозначных слов Каждый кластер, в котором состоит слово, раскрывает его некий смысл Принципиально иная идея кластеризации Ищутся всевозможные кластеры на основе подобия с методом взвешенного среднего. Среди них формируется множество достаточно хороших (в частности, по включению) кластеров (комитетов). Каждое слово приписывается ко всем возможным комитетам.
  • 33. Обзор существующих решений Полученный ранее список похожих слов для слова suit и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim, business suit, … ( suit Nq34 0.39 (blouse, slack, legging, sweater) Nq137 0.20 (lawsuit, allegation, case, charge) )
  • 34. Заключение Обработана коллекция русскоязычных новостных документов объёмом 17000 текстов. Рассмотрены основные способы определения смысловой близости слов. Сделан обзор полученных к настоящему моменту результатов по данной тематике для англоязычных текстов. Предложен некоторый алгоритм автоматического выделения кластеров похожих слов из русскоязычного текста. Выявлены проблемы, которые подлежат дальнейшему изучению и разрешению.
  • 35. Литература « Automatic Retrieval and Clustering of Similar Words » Dekang Lin , Department of Computer Science , University of Manitoba, Canada , 1998 « Discovering Word Senses from Text » Patrick Pantel , Dekang Lin , Department of Computing Science , University of Alberta Edmonton, Canada , 2003