18th септември 2019

ДемоСем

Дълбоки модели на семантично знание  (ДемоСем)

 

НАЧАЛО          ЦЕЛИ          ЕКИП         РЕЗУЛТАТИ

 

Проектът има за цел да създаде оптимални дълбоки модели от комбинирани елементи от знание, извлечено от корпуси (синтагматични релации) и лексикони (парадигматични релации) с помощта на съвременни математически методи, които включват подходи, базирани на графи, и дълбоки невронни мрежи. Областта на тестване на дълбоките модели е Снемане на многозначност при значения на думи. Тази област все още очаква своя голям пробив, чрез който да инициира реални приложения. Повечето сравнително успешни методи разчитат на тясна тематична област и на използването на анотирани данни за  създаването на граф от знания (т. нар. методи с учител).

Методите, базирани на графи, много добре се справят с гъсти мрежи от свързани релации, но те страдат от гъвкавост по отношение на уместността на представеното семантично знание. Затова ще бъдат изследвани и методи, базирани на дълбоки невронни мрежи, които са в центъра на всички по-успешни методи за машинно самообучение. Те обаче все още са като черна кутия по отношение на процесите, които може да се контролират от хора.

Нашият опит до момента е в: а) езиковите технологии и б) методите, базирани на графи.

В рамките на проекта бихме искали да насочим усилията си към:
а) подготовка на данни с експлицирана семантична информация (на основата на значенията и валентната информация);
б) моделирането на семантичната информация, кодирана в езикови ресурси, чрез взаимодействието между графи от знания и дълбоки невронни мрежи;
в) трениране на автоматични средства за снемане на многозначност на думи;
г) тестване на автоматичните средства върху данни от обща област и върху данни в по-голямо количество.

Задачи

  1. Създаване на подходящи езикови ресурси и езикови модели на семантичното знание.
  2. Използване на подходи с дълбоки невронни мрежи към семантичното знание.
  3. Интегриране на методите, базирани на графи, в дълбоките невронни мрежи.
  4. Създаване на подходящи модели и автоматични средства за подобряване на снемането на многозначност на думи.

 

Организация: Институт по информационни и комуникационни технологии, Българска академия на науките (ИИКТ-БАН)

Ръководител на научния колектив: Доц. д-р Кирил Иванов Симов

Фонд научни изследвания – 2016 г.