Kahtleva kõneviisi tuvastus

Sel suvel sain valmis ka oma esimese teadusartikliga. Artikli teemaks on “Combining manual rules and supervised learning for hedge cue and scope detection” ehk “Keelereeglite ja masinõppe meetodite ühendamine kahtleva kõneviisi mõjuala tuvastamiseks”. [LINK]. Idee on selles, et autorid kasutavad kahtlevat kõneviisi kui nad ei ole oma väidetes kindlad. Näiteks:

Kirjeldatud geen on tõenäoliselt pseudogeen kuna
ta sisaldab TAA koodonit.

Tegemist võib olla pseudogeeniga aga võib-olla ka mitte, autor on esitanud väite milles ta ei ole kindel. Samas on kindel, et see geen sisaldab TAA koodonit. Süsteemid, mille eesmärgiks on automaatselt tekste läbi töötada ja andmebaase täiendada, on huvitatud ainult kindlast informatsioonist ja tahavad spekulatsioonid eemaldada.

Minu eesmärk oli arendada süsteem, mis suudaks leida selle ebakindla osa tekstis. Näiteks ülalolevast lausest saab:

Kirjeldatud geen on (<tõenäoliselt> pseudogeen) kuna
ta sisaldab TAA koodonit.

“tõenäoliselt” on märksõna, mis viitab kahtlevale kõneviisile, “tõenäoliselt pseudogeen” on see osa lausest mis on kahtlevaks muudetud. Lõplik süsteem kasutab kaheksat käsitsi koostatud reeglit ja masinõppe meetodeid et õige ala tuvastada.

Tegemist oli avatud võistluse ehk shared task’iga CoNLL 2010 raames – püstitatati probleem, kõik huvitatud esitasid oma lahendused ja neid hinnati võrdsetel alustel. Antud süsteem sai kahtleva kõneviisi mõjuala tuvastamises II koha; samas kuna tegemist on üpris keerulise ülesandega, siis tulemustel on veel arenguruumi.

Rubriigid: Research. Salvesta püsiviide oma järjehoidjasse.

Lisa kommentaar