Дълбоки модели на семантично знание (ДемоСем)
Проектът има за цел да създаде оптимални дълбоки модели от комбинирани елементи от знание, извлечено от корпуси (синтагматични релации) и лексикони (парадигматични релации) с помощта на съвременни математически методи, които включват подходи, базирани на графи, и дълбоки невронни мрежи. Областта на тестване на дълбоките модели е Снемане на многозначност при значения на думи. Тази област все още очаква своя голям пробив, чрез който да инициира реални приложения. Повечето сравнително успешни методи разчитат на тясна тематична област и на използването на анотирани данни за създаването на граф от знания (т. нар. методи с учител).
Методите, базирани на графи, много добре се справят с гъсти мрежи от свързани релации, но те страдат от гъвкавост по отношение на уместността на представеното семантично знание. Затова ще бъдат изследвани и методи, базирани на дълбоки невронни мрежи, които са в центъра на всички по-успешни методи за машинно самообучение. Те обаче все още са като черна кутия по отношение на процесите, които може да се контролират от хора.
Нашият опит до момента е в: а) езиковите технологии и б) методите, базирани на графи.
В рамките на проекта бихме искали да насочим усилията си към:
а) подготовка на данни с експлицирана семантична информация (на основата на значенията и валентната информация);
б) моделирането на семантичната информация, кодирана в езикови ресурси, чрез взаимодействието между графи от знания и дълбоки невронни мрежи;
в) трениране на автоматични средства за снемане на многозначност на думи;
г) тестване на автоматичните средства върху данни от обща област и върху данни в по-голямо количество.
Задачи
- Създаване на подходящи езикови ресурси и езикови модели на семантичното знание.
- Използване на подходи с дълбоки невронни мрежи към семантичното знание.
- Интегриране на методите, базирани на графи, в дълбоките невронни мрежи.
- Създаване на подходящи модели и автоматични средства за подобряване на снемането на многозначност на думи.
Организация: Институт по информационни и комуникационни технологии, Българска академия на науките (ИИКТ-БАН)
Ръководител на научния колектив: Доц. д-р Кирил Иванов Симов
Фонд научни изследвания – 2016 г.