Przejdź do głównej treści

Widok zawartości stron Widok zawartości stron

Eksperymentalna Sieć Leksyklana Języka Polskiego

Sieć skojarzeniowa to struktura zbudowana z węzłów leksykalnych i relacji – poniżej fragment sieci dla wyrazu dom uzyskany w czasie badań pilotażowych (Gatkowska, 2013, 2014).

Zbiór relacji definiuje znaczenie jednostki leksykalnej. Ścieżka w sieci może objaśniać to, w jaki sposób uzyskujemy informację, która nie ma reprezentacji leksykalnej w zdaniu, jak np. w dialogu: Ciociu dostałam teriera! – Świetnie, ale musisz dbać o zwierzę.

Do budowy sieci wykorzystujemy eksperyment test swobodnych skojarzeń słownych (Kent i Rosanoff , 1910), który zwraca listę par bodziec – odpowiedź: Poniżej początkowy fragment listy skojarzeń do wyrazu dom:

Skojarzenie Ilość Śred Min Max czas [s]
rodzinny 125 3.65 2.04 10.11
mieszkanie 113 3.52 2.09 8.5
rodzina 82 4.09 2.17 10.91
spokój 21 4.24 2.45 8.8
ciepło 19 3.92 2.27 7.06
ogród 18 4.1 2.51 6.13
mój 17 3.33 1.86 7.23
bezpieczeństwo 13 5.91 3.47 11
dach 12 3.82 2.63 6.19
pokój 11 3.91 2.6 6.61
mama 11 3.18 1.43 5.93

zob. pełna lista

Jest rzeczą znaną (Clark, 1971), że lista skojarzeń zawiera odpowiedzi semantycznie związane z bodźcem, np. dom – komin oraz odpowiedzi związane z bodźcem pragmatycznie, np. dom – zły lub formalnie (gramatycznie) dom – domek; możliwe są też odpowiedzi dźwiękonaśladowcze, np. dom – tom.

Uzyskana eksperymentalnie siła powiązania bodźca i odpowiedzi nie zawsze pozwala odróżnić skojarzenia semantyczne od pozostałych, przykładowo dla bodźca dom uzyskujemy skojarzenia: dach 0.024, zły 0.016, ściana 0.0019, podobnie w Edinburgh Associative Thesaurus (EAT) dla bodźca house uzyskamy listę: roof 0.04, Jack 0.02, wall 0.01.

Siła powiązania bodźca i odpowiedzi może być różna dla różnych języków, jednak skojarzenia semantyczne są porównywalne (Rosenzwieg, 1961). Poniżej lista wspólnych skojarzeń semantycznych dla wieloznacznego wyrazu dom i angielskich odpowiedników home i house (Gatkowska i wsp., 2013, Gatkowska 2013, 2014).

home+house – dom home – dom house – dom
family – rodzina family garden
garden – ogród mother flat
mother – matka cottage roof
roof – dach garden room
flat – mieszkanie parents building
building – budynek peace chimney
chimney – komin security cottage
parents – rodzice warmth mother
room – pokój brick
brick – cegła warm
security – bezpieczeństwo warmth
cottage – chata
peace – spokój
warm – ciepły
warmth – ciepło

Jeśli przeanalizujemy skojarzenia, w których bodziec jest semantycznie powiązany z odpowiedzią, to zauważymy, że najczęstsze są skojarzenia bezpośrednie, tj. takie które reprezentują relację semantyczną, np. dom – ściana (całość – część). Mniej częste są skojarzenia pośrednie, które możemy objaśnić za pomocą łańcucha relacji, np. baranina – wełna, gdzie musimy przyjąć łańcuch baranina – baran (źródło), następnie baran – runo (całość – część) i wreszcie runo – wełna (źródło). Można przyjąć, że ten typ skojarzeń opiera się na sieci semantycznej.

Odpowiedni liczny zbiór bodźców pozwala uzyskać sieć skojarzeniową, w której powiązania semantyczne stanowią zdecydowaną większość. Jednak sieć skojarzeniowa różni się od sieci semantycznych budowanych ręcznie, takich jak WordNet (Miller i wsp., 1990, 1998), czy FrameNet (Fillmore 1982, Fillmore i wsp., 2004). WordNet to sieć zbudowana wyłącznie za pomocą znanych językoznawstwu relacji paradygmatycznych (Lyons, 1972), więc w badaniach lingwistyczno-komputerowych ten programowy brak relacji syntagmatycznych usiłuje się skompensować za pomocą sieci uzyskanych w wyniku eksperymentu (Sinopalnikova i Smrz, 2004), (Budanitsky i Hirst, 2006). Natomiast FrameNet nie używa relacji semantycznych explicite, tworząc sieć złożoną z ram, tj. struktur semantycznych, którym można przyporządkować zdania i jedyne relacje w modelu to paradygmatyczne relacje zachodzące między ramami.

W rezultacie żadna z sieci budowanych ręcznie nie stanowi modelu pozwalającego opisać częste i występujące w trakcie badań różnych języków skojarzenia semantyczne typu: igła – nitka, chleb – masło, stół – krzesło, dom – drewno. Chcąc opisać takie skojarzenia potrzebujemy modelu, w którym sieć jest definiowana przez zbiór znaczeń i zbiór relacji zachodzących pomiędzy znaczeniami, i w którym relacje paradygmatyczne i syntagmatyczne są używane explicite, bowiem tylko taki model pozwoli sklasyfikować powiązania semantyczne w sieci skojarzeniowej. Potrzebny nam model stworzono w badaniach nad sztuczną inteligencją (Sowa, 2006) i jest nim Conceptual Dependency (Schank, 1972, 1975), tj. model zbudowany dla potrzeb badań nad automatycznym rozumieniem tekstu.

Zastosowania sieci skojarzeniowej

Sieć uzyskana w wyniku eksperymentu dostarczy danych do badań:
– językoznawczych, badanie właściwości relacji semantycznych: syntagmatycznych i paradygmatycznych, badanie właściwości zależności semantyki i gramatyki oraz badań porównawczych struktur semantycznych różnych języków,
– komputerowych badań nad semantyczną strukturą tekstu oraz badań nad semantycznymi mechanizmami wyszukiwania w sieci,
– psychologicznych i psycholingwistycznych badań nad pamięcią semantyczną,
– antropologiczno–kulturowych,
– diagnostycznych w medycynie, poszerzając model wzorca diagnostycznego.

Test swobodnych skojarzeń słownych

Test swobodnych skojarzeń słownych został zdefiniowany przez psychiatrów (Kent-Rosanoff, 1910). Testowi poddano 1000 osób, a w wyniku testu uzyskano wzorzec diagnostyczny (association norm). Test cyklicznie powtarzano, a powtarzalność wyników pozwalała zwiększać liczbę bodźców zmniejszając liczbę badanych: 200 bodźców i 500 badanych (Palermo, Jenkins 1964), 8400 bodźców i 100 badanych (Kiss, Armstrong, Milroy, Piper ,1973). Ten ostatni – trwający kilkanaście lat – test pozwolił zbudować Edinburgh Associative Thesaurus (http://www.eat.rl.ac.uk/). Dla języka polskiego test swobodnych skojarzeń słownych na tak dużą skalę przeprowadzono tylko raz (Kurcz, 1967) i było to powtórzenie testu Kent-Rosanoffa (lista Kent-Rosanoffa przetłumaczona na język polski).

Lingwistyka komputerowa (Church i Hanks, 1990) rozpoczęła poszukiwania alternatywy dla testu prowadzonego na ludziach, generując listy skojarzeniowe na podstawie korpusu tekstów. Jednak badania porównawcze pokazały, że tylko ułamek skojarzeń generowanych automatycznie pokrywa się ze skojarzeniami uzyskanymi w wyniku eksperymentu (Rapp i wsp., 2005, Rapp, 2002, 2008), (Wandmacher, 2005, 2008), (Gatkowska i wsp., 2013). Stosunkowo niedawno lingwistyka komputerowa rozpoczęła testowanie ludzi, łagodząc jednak rygory testu psychologicznego, np. dopuszczając kilka odpowiedzi dla pojedynczego bodźca (Schulte im Walde, Borgwaldt, Jauch., 2012, De Deyne, Storms, 2008, http://www.kuleuven.be/semlab/interface/index.php) lub stosując bodźce złożone (Rapp, 2008, 2013). Jednak nasz eksperyment fazowy, zmierzający do budowy bogatej sieci skojarzeniowej (Gatkowska, 2013, 2014) zachowuje rygory eksperymentu psycholingwistycznego – tj. badany podaje tylko jedną odpowiedź, mając ograniczony czas na udzielenie odpowiedzi.

Eksperyment autorski pozwalający na budowę sieci skojarzeniowej

Potrzebujemy bogatej sieci skojarzeniowej i by ją uzyskać musimy zmodyfikować przebieg eksperymentu, dzieląc go na fazy: zaczynamy od określonego zbioru bodźców, a w fazie następnej skojarzenia stają się bodźcami i tak dalej. Dlatego opisany niżej eksperyment autorski to eksperyment fazowy przeprowadzony w warunkach kontrolowanych, za pomocą systemu komputerowego (Gatkowska 2013, 2014)

Opis eksperymentu prowadzonego w KLK

– Eksperyment, przeprowadzony w laboratorium komputerowym za pomocą specjalistycznego systemu komputerowego. System prezentuje wyrazy bodźce i zapisuje odpowiedzi. Grupa badanych: studenci. Badanie anonimowe, każdy z badanych zaznacza płeć i podaje swój wiek.
– Instrukcja dla badanych pojawia się na monitorze każdego badanego przed rozpoczęciem testu. Dodatkowo osoba prowadząca test odczytuje na głos instrukcję.
– Po przeczytaniu instrukcji każdemu z uczestników testu na ekranie pojawia wyraz -bodziec, a uczestnik wpisuje skojarzenie. Po wpisaniu skojarzenia (lub gdy minie czas na wpisanie) na ekranie pojawia się kolejny bodziec. I tak do wyczerpania listy bodźców. Wyniki testu od razu zasilają bazę.
– Liczba i uporządkowanie bodźców są identyczne dla każdego badanego.
– Czas przeznaczony na udzielenie odpowiedzi został ustalony eksperymentalnie w badaniu pilotażowym (Gatkowska 2013).
– Osoba prowadząca test przebywa w laboratorium przez cały czas.
– Dobór wyrazów bodźców:
– faza I: 60 bodźców z listy Kent-Rosanoffa, wersja polska, głównie rzeczowniki (ok. 80%).
– faza II: 260 bodźców, po 5 najczęstszych skojarzeń dla każdego bodźca użytego w fazie I.

Próbki sieci

RZECZOWNIK:

baraninachlebgłowajedzeniekrzesłoksiężyclampapracaptakrękawodażołnierz

PRZYMIOTNIK:

białyciężkiczerstwydużygłęboki

CZASOWNIK:

ciąćpalićpłynąć

Literatura

– Budanitsky A., Hirst G., 2006, Evaluating wordnet-based measures of lexical semantic relatedness. Computational Linguistics 32.1, s. 13-47.
– Church K. W., Hanks P., 1990, Word Association Norms, Mutual Information and Lexicography. Computational Linguistics, t. 16, 1, s.22-29.
– Clark, H. H. ,1971, Word Associations and Linguistic Theory [w]: “New Horizon in Linguistics”, red. J. Lyons, Penguin, s. 271-286.
– De Deyne, S., Storms, G. 2008, Word associations: Network and semantic properties. [w:] Behavior Research Methods, 40 (1), s.213-231.
– Fillmore, Ch. J.,1976, Frame semantics and the nature of language, Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. 280 20-3
– Fillmore, Ch. J, 1982, Frame semantics, Linguistics in the Morning Calm. Seoul, South Korea: Hanshin Publishing Co.,s. 111-137.
– Fillmore, Ch. J., Collin F. Baker C. F., and Sato H. 2004, FrameNet as a „Net” Proceedings of LREC. t. 4. Lisbon: ELRA, s. 1091-1094.
– Gatkowska, I., 2014, “Word Associations as a Linguistic Data” [w] Languages in Contact 2012, t.1, red. P.Chruszczewski, J.Rickford, K. Buczek, A. Knapik, J. Mianowski, Wrocław, 79-92.
– Gatkowska, I., 2013, Przetwarzanie informacji językowej. Podstawy kognitywne. [ w:] „Interfejs dla osób z dysfunkcją wzroku. Model kognitywny i przykład dobrej praktyki”, red. I. Gatkowska , W. Lubaszewski , Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 9-45.
– Gatkowska I., Korzycki M., Lubaszewski W., 2013, Can Human Association Norm Evaluate Latent Semantic Analysis? Proceedings of the 10th NLPCS Workshop, Marseille, 2013., s.92-104.
– Gatkowska I. 2012, „Diagnoza dyzartrii u dorosłych w neurologii klinicznej”, ISBN 978-83-233-3277-0, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków.
– Kent, G. H., Rosanoff, A. J. 1910, A study of association in insanity. [w:] American Journal of Insanity 67 (37-96), s. 317-390.
– Kiss, G.R., Armstrong, C., Milroy, R., Piper, J.,1973, An associative thesaurus of English and its computer analysis, [w]: “The Computer and Literary Studies” red. Aitken, A.J., Bailey, R.W.
– Kurcz I. 1976, „Psycholingwistyka”, PWN, Warszawa,
– Kurcz I., 1967, Polskie normy powszechności skojarzeń swobodnych na 100 słów z listy Kent-Rosanoffa [w]: Studia Psychologiczne, t.VIII, s.122- 255.
– Lyons J.,1972, “Structural Semantics. An Analysis of Part of the Vocabulary of Plato”, Basil Blackwell, Oxford.
– Miller, G. A., Beckwith, R., Fellbaum, Ch., Gross, D., Miller, K. 1990, Introduction to WordNet: an on-line lexical database. [w]: “International Journal of Lexicography”. 3 (4), 235 – 244.
– Miller G.A., Beckwith R., Fellbaum Ch., Gross D., Miller K., 1998, Introduction to WordNet: An On-line Lexical Database, [w]:“WordNet An Electronic Lexical Database”, red. Ch. Fellbaum, Cambridge Mass.
– Palermo D.S., Jenkins, J.J., 1964, “Word Associations Norms: Grade School through College”, Minneapolis.
– Rapp, R., 2013, From Stimulus to Associations and Back, Proceedings of the NLPCS Workshop, Marseille, 2013, s.78-91.
– Rapp R., 2008, The Computation of Associative Responses to Multiword Stimuli, Proceedings of the workshop on Cognitive Aspects of the Lexicon (COGALEX 2008): Coling 2008, s. 102–109. Manchester,
– Rapp, R., 2002 , The Computation of Word Associations: Comparing Syntagmatic and Paradigmatic Approaches, Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
– Rosenzwieg, M. R. 1961, Comparisons among word-association responses in English, French, German, and Italian. [w:] Amer. Journal Psychol.t.64,
– Sinopalnikova,A., Smrz,P., 2004, Word Association Thesaurus as a Resource for extending Semantic Networks, Proceedings of the International Conference on Communications in Computing, CIC ’04, Las Vegas, Nevada, USA, s. 267-273.
– Schank R.C. 1972, „Conceptual Dependency: A Theory of Natural Language Understanding”, Cognitive Psychology, t. 3, s. 552-631.
– Schank R. C., 1975, “Conceptual Information Processing”, North-Holland.
– Schulte im Walde, S., Borgwaldt,S., Jauch,R., 2012, Association Norms of German Noun Compounds , [w]: Proceedings of the 8th LREC Conference, Istanbul.
– Sowa, J. F., 2006, “Semantic Networks”. [w]: Encyclopedia of Cognitive Science. New York: John Wiley & Sons Ltd.
– Wandmacher, T., 2005, How semantic is Latent Semantic Analysis, Proceedings of TALN/RECITAL 5 .
– Wandmacher T., Ovchinnikova E., Alexandrov T., 2008 Does Latent Semantic Analysis reflect human association , Proceedings of the ESSLLI Workshop on Distributional Lexical Semantics.
– Wettler M., Rapp R., Sedlmeier P., 2005, Free word associations correspond to contiguisties between words in text, Journal of Quantitative Linguistics, 12(2), s. 111–122.