NyelvtechnológiaiCsoport
Korpuszok az
információkinyerésben
Vincze Veronika
NyelvtechnológiaiCsoport
Bevezető
• IE: strukturálatlan szövegből strukturált
információ
A Nagy Hal Zrt. felvásárolta a Kis Hal Bt.-t.
Esemény: felvásárlás Vevő: Nagy Hal Zrt. Áru: Kis Hal Bt.
• Részproblémák:
– Névelem-felismerés
– Bizonytalan/tagadott kifejezések azonosítása
– Nem szó szerinti jelentéses egységek felismerése
– Szubjektivitás, vélemények azonosítása
– …
• Gépi tanuláson alapuló módszerek – korpuszok
kellenek!
NyelvtechnológiaiCsoport
Névelem-felismerés
• Tulajdonnevek, azonosítók…
• Az OTPORG új fiókot nyitott EgerbenLOC.
• Domének és nyelvek:
– SZK üzleti rövidhírek + web
– Bűnügyi szövegek
– Wikipedia-szövegek (Wiki50, angol)
• NER rendszerek angolra és
magyarra
NyelvtechnológiaiCsoport
Bizonytalanság és tagadás
• Tényszerű vs. tagadott vs. bizonytalan
információ
– Esik. Nem esik. Lehet, hogy esik.
• Korpuszok:
– BioScope: angol biológiai szövegek
(UC+NEG)
– WikiWeasel: angol WP-szövegek (UC)
– hUnCertainty: magyar WP-szövegek,
bűnügyi hírek, Facebook- és blogszövegek
(UC)
• UC-azonosító rendszerek angolra és magyarra
NyelvtechnológiaiCsoport
Nem szó szerinti jelentés
• Nem teljesen kompozicionális kifejezések
– alulról szagolja az ibolyát
– farkasétvágy != farkas + étvágy
• Korpuszok:
– SZK: félig kompozicionális szerkezetek (FX)
(magyar)
– Wiki50: több MWE-osztály (angol)
– 4FX: jogi szövegek, FX (magyar, angol,
német, spanyol)
– SzegedParalellFX: FX (magyar, angol)
• MWE-felismerő megoldások angolra, magyarra,
németre és spanyolra
NyelvtechnológiaiCsoport
Szubjektivitás
• Vélemények megállapítása adott
témáról
– az iPhone egy xar
• Korpuszok:
– fórum-hozzászólások (magyar)
– termékismertetők (magyar, angol)
– utazási élmények (angol)
• Gépi tanuló megoldások több
doménre
NyelvtechnológiaiCsoport
Feladatorientált korpuszok
• CV-k automatikus feldolgozása
– Angol, magyar, német
– Sokrétű annotáció: személyi adatok, iskolai
végzettség, előző munkahely, hobbi stb.
• Bűnügyi IE-rendszer
– Magyar
– Különösen sokféle névelem (vezeték-,
keresztnév, álnév, gúnynév stb.)
• Szabadalmak feldolgozása
– Angol
– Sokrétű annotáció: kémiai névelemek,
tagmondat-határolók, eseményt jelölő
szavak…
NyelvtechnológiaiCsoport Felhasználhatóság
• Információkinyerésben hasznos modulok
fejleszthetők a korpuszok alapján
• Magyar, angol, német, spanyol, (olasz,
francia)… nyelvek
• Korpuszok több doménre is
• Általában oktatási és kutatási célra
szabadon felhasználhatók
• Ipari projektekben fejlesztett anyagok
http://rgai.inf.u-szeged.hu/nlp/download

Vincze Veronika: Korpuszok az információkinyerésben

  • 1.
  • 2.
    NyelvtechnológiaiCsoport Bevezető • IE: strukturálatlanszövegből strukturált információ A Nagy Hal Zrt. felvásárolta a Kis Hal Bt.-t. Esemény: felvásárlás Vevő: Nagy Hal Zrt. Áru: Kis Hal Bt. • Részproblémák: – Névelem-felismerés – Bizonytalan/tagadott kifejezések azonosítása – Nem szó szerinti jelentéses egységek felismerése – Szubjektivitás, vélemények azonosítása – … • Gépi tanuláson alapuló módszerek – korpuszok kellenek!
  • 3.
    NyelvtechnológiaiCsoport Névelem-felismerés • Tulajdonnevek, azonosítók… •Az OTPORG új fiókot nyitott EgerbenLOC. • Domének és nyelvek: – SZK üzleti rövidhírek + web – Bűnügyi szövegek – Wikipedia-szövegek (Wiki50, angol) • NER rendszerek angolra és magyarra
  • 4.
    NyelvtechnológiaiCsoport Bizonytalanság és tagadás •Tényszerű vs. tagadott vs. bizonytalan információ – Esik. Nem esik. Lehet, hogy esik. • Korpuszok: – BioScope: angol biológiai szövegek (UC+NEG) – WikiWeasel: angol WP-szövegek (UC) – hUnCertainty: magyar WP-szövegek, bűnügyi hírek, Facebook- és blogszövegek (UC) • UC-azonosító rendszerek angolra és magyarra
  • 5.
    NyelvtechnológiaiCsoport Nem szó szerintijelentés • Nem teljesen kompozicionális kifejezések – alulról szagolja az ibolyát – farkasétvágy != farkas + étvágy • Korpuszok: – SZK: félig kompozicionális szerkezetek (FX) (magyar) – Wiki50: több MWE-osztály (angol) – 4FX: jogi szövegek, FX (magyar, angol, német, spanyol) – SzegedParalellFX: FX (magyar, angol) • MWE-felismerő megoldások angolra, magyarra, németre és spanyolra
  • 6.
    NyelvtechnológiaiCsoport Szubjektivitás • Vélemények megállapításaadott témáról – az iPhone egy xar • Korpuszok: – fórum-hozzászólások (magyar) – termékismertetők (magyar, angol) – utazási élmények (angol) • Gépi tanuló megoldások több doménre
  • 7.
    NyelvtechnológiaiCsoport Feladatorientált korpuszok • CV-kautomatikus feldolgozása – Angol, magyar, német – Sokrétű annotáció: személyi adatok, iskolai végzettség, előző munkahely, hobbi stb. • Bűnügyi IE-rendszer – Magyar – Különösen sokféle névelem (vezeték-, keresztnév, álnév, gúnynév stb.) • Szabadalmak feldolgozása – Angol – Sokrétű annotáció: kémiai névelemek, tagmondat-határolók, eseményt jelölő szavak…
  • 8.
    NyelvtechnológiaiCsoport Felhasználhatóság • Információkinyerésbenhasznos modulok fejleszthetők a korpuszok alapján • Magyar, angol, német, spanyol, (olasz, francia)… nyelvek • Korpuszok több doménre is • Általában oktatási és kutatási célra szabadon felhasználhatók • Ipari projektekben fejlesztett anyagok http://rgai.inf.u-szeged.hu/nlp/download