Дълбоки модели на семантично знание (ДемоСем)
Мисията на проекта е да направи текстовата информация по-комуникативна и подходяща за нуждите на потребителите и за свързаните с тях приложения. Основната цел на проекта е да разшири сегашното знание на лингвистично и формално равнище за процеса на снемане на многозначност на думи. Езикът, на който ще бъдат данните, е български, но тъй като резултатите от проекта трябва да бъдат приложими и за други езици (чрез езиково независимите компоненти и различните техники на адаптация), ще бъдат направения частични експерименти и върху английски език.
- Цели и хипотези
Нашите цели са следните:
а) Лингвистично моделиране на важни аспекти на трудностите при разпознаване, комбиниране и представяне на семантичното знание, кодирано в лексиконите и реализирано в корпусите.
б) Математическо моделиране в алгоритмите, базирани на графи и на дълбоки невронни мрежи, на характеристиките, които ще помогнат за представяне на семантичното знание и да се подобри неговото разпознаване, комбиниране и извличане при задачата за снемане на многозначност на думи.
в) Интегриране на модели на дълбоки невронни мрежи в подходите, базирани на графи, за
снемането на многозначност на думи.
г) Създаване на тестови множества за оценяване на разработените формални модели.
Лингвистичните модели ще играят две основни роли в проекта: първо, те ще помогнат да се определи семантичната свързаност в текста на равнището на локалния контекст (фиксиран прозорец от думи, изречения), на междуизреченското равнище, на дискурсното равнище и на равнището между документите. Всяко от тези равнища ще определи различните видове знание, които имат значение за снемането на многозначността на думите. Второ, тези модели ще направляват подготовката на анотирани данни, които да демонстрират реализацията на различните методи за СМД. Анотираните текстове ще бъдат използвани за тестването на създадената имплементация на основата на лингвистичните модели.
Методите, базирани на графи от знания, ще се използват като действителен механизъм за прилагането на снемането на многозначност на думи. Основните усилия ще бъдат насочени към знанието, кодирано в графа, и в избора на подходящи контексти в текстовете. Моделите с невронни мрежи ще научават контекстовите характеристики за методите, базирани на графи, и по този начин ще управляват прилагането на подходите, базирани на графи от знания.
Нашите хипотези са следните:
а) Едновременното използване на лексикони и корпуси може да подобри качеството на нужното семантично знание, тъй като по този начин се комбинира парадигматично и синтагматично знание.
б) Моделите на дълбоки невронни мрежи могат да допълнят постиженията на моделите, базирани на графи от знания, особено в областите, където е трудно да се разпознаят предварително релациите или където свързаността между релациите в големи масиви от текстове е глобална и непостоянна.
в) Може да се създаде модел, който подобрява резултатите за снемане на многозначност на думи за български, а потенциално – и за други езиици.
Доказването на горните хипотези ще означава, че задачите на проекта са изпълнени. Реализацията на семантиката в текста като взаимодействие с лексикона е основа за използването на съществуващото знание в лексиконите и онтологиите чрез методи, базирани на графи. Невронните мрежи ще допълнят това знание чрез научаването на нови характеристики, за които все още е невъзможно или трудно да бъдат формулирани чрез символно представяне. Комбинацията между трите подхода – лингвистичен; подход, базиран на графи и подход, базиран на невронни мрежи – ще ни позволи да подобрим моделите за знания по отношение на задачата за снемане на многозначност на думи.
- Подходи за постигане на изследователските цели, включително и интердисциплинарност на проектното предложение
Предвид интердисциплинарния характер на проекта, ще използваме подходи от квалификативните и квантитативните изследвания. Лингвистиката е емпирична наука, която се базира на наблюдения върху употребата на езика в реални текстове и речеви актове. Колекциите от реални употреби на езика се наричат корпуси (включващи текстови архиви и анотирани корпуси). От друга страна, лингвистите използват интуицията си, за да създават лингвистични теории на базата на своите прозрения. Лингвистичните теории са индуктивни по своята същност.
Лингвистичните модели в проекта ще отразяват релацонни структури (лексикони и онтологии), които дефинират семантичното знание, и формалните граматики, които определят отношенията между семантиката в лексикона и реализацията й в текста. Реализацията на отношението между лексикон и текст чрез граматика е дедуктивна.
Лингвистичните теории се валидират чрез изследване на подходящи части от корпуси по два начина. От една страна, валидацията става чрез ръчна анотация на нови езикови данни (или чрез разширяване на анотацията на съществуващите части) .
Този процес осигурява качеството на лингвистичната теория. Качеството се измерва с помощта на анотиране на едни и същи данни от повече анотатори. По този начин може да се измери съгласуването на анотациите между анотаторите и ръчно да се проверят несъответствията в анотациите от суперанотатор. Намерените пропуски всъщност играят роля за подобряване на лингвистичната теория.
От друга страна, валидацията на лингвистичната теория ще бъде проверена и чрез използването й в моделите на графи от знания и на невронни мрежи за СМД. Поведението на двата подхода ще бъде изследвано чрез проверка на способността им да предвиждат значенията върху непознати данни. Мерките са прецизност, обхват, точност и мярката F.
Тук ще бъдат използвани и двата подхода – индуктивен и дедуктивен, за да се научи ново знание от езикови данни и да се експлицира неявното знание в лексиконите и онтологиите. Резултатите от валидацията на теорията ще бъдат използвани като основа за по-нататъшното развитие на формалните лингвистични теории и тяхната имплементация в модели на графи от знания и на невронни мрежи върху СМД.
В заключение, ще използваме формалното моделиране на естествен език, което ще бъде изразено в анотационна схема. Тя ще покрива различни части от семантичното знание в текста и в представянето на различните релации в лексикона. Този подход ще осигури системността на данните и възможността за тестване и оценка на методите с учител. В проекта ще се разчита на подходи, базирано на графи и на дълбоки невронни мрежи за описанието на езиковите модели по начин, адекватен за СМД. Това означава, че някои части от алгоритмите трябва да бъдат направени прозрачни и разбираеми за целите на човешкия контрол, когато има нужда от такъв контрол в системата.
- Обосновка на вида на научното изследване (фундаментално или приложно)
Ние прилагаме следната дефиниция за фундаментално научно изследване:
„фундаментални научни изследвания“ означава експериментална или теоретична работа, предприета основно с цел придобиване на нови знания за причините за явленията или наблюдаемите факти без очаквано пряко търговско приложение или използване. (РЕГЛАМЕНТ (ЕС) № 651/2014 НА КОМИСИЯТА от 17 юни 2014 година, Алинея 2 (84)[1]).
Нашата цел е да проучим различни модели на извлечено знание от наличните и специално създадените ресурси с помощта на дълбоките невронни мрежи, но без да изключваме методите, базирани на графи, тъй като планираме да тестваме и хубридни архитектури.
Резултатите, до които ще достигнем чрез изследванията в проекта и чрез експериментите за подобряване на СМД ще може да се изполва по-късно в научни и индустриални приложения.
Изследванията ни са в съгласие с цитираната по-горе дефиниция, тъй като те имат за цел да проучат подходящите части знание за задачата на СМД при следните условия: знанието идва от два типа езикови ресурси – корпуси и лексикони; смятаме да минем отвъд алгоритмите, базирани на графи, защото те са успешни предимно в парадигматичен план. Затова ще бъдат тествани дълбоки невронни мрежи, които използват локални и глобални синтагматични релации. Дълбоките невронни мрежи ще използват най-добрите резултати от методите, базирани на графи.
Смятаме, че двата подхода се допълват успешно.
[1] http://eur-lex.europa.eu/legal-content/BG/TXT/?uri=CELEX:32014R0651