Sieć skojarzeniowa to struktura zbudowana z węzłów leksykalnych i relacji – poniżej fragment sieci dla wyrazu dom uzyskany w czasie badań pilotażowych (Gatkowska, 2013, 2014).
Zbiór relacji definiuje znaczenie jednostki leksykalnej. Ścieżka w sieci może objaśniać to, w jaki sposób uzyskujemy informację, która nie ma reprezentacji leksykalnej w zdaniu, jak np. w dialogu: Ciociu dostałam teriera! – Świetnie, ale musisz dbać o zwierzę.
Do budowy sieci wykorzystujemy eksperyment test swobodnych skojarzeń słownych (Kent i Rosanoff , 1910), który zwraca listę par bodziec – odpowiedź: Poniżej początkowy fragment listy skojarzeń do wyrazu dom:
Skojarzenie | Ilość | Śred | Min | Max czas [s] |
---|---|---|---|---|
rodzinny | 125 | 3.65 | 2.04 | 10.11 |
mieszkanie | 113 | 3.52 | 2.09 | 8.5 |
rodzina | 82 | 4.09 | 2.17 | 10.91 |
spokój | 21 | 4.24 | 2.45 | 8.8 |
ciepło | 19 | 3.92 | 2.27 | 7.06 |
ogród | 18 | 4.1 | 2.51 | 6.13 |
mój | 17 | 3.33 | 1.86 | 7.23 |
bezpieczeństwo | 13 | 5.91 | 3.47 | 11 |
dach | 12 | 3.82 | 2.63 | 6.19 |
pokój | 11 | 3.91 | 2.6 | 6.61 |
mama | 11 | 3.18 | 1.43 | 5.93 |
Jest rzeczą znaną (Clark, 1971), że lista skojarzeń zawiera odpowiedzi semantycznie związane z bodźcem, np. dom – komin oraz odpowiedzi związane z bodźcem pragmatycznie, np. dom – zły lub formalnie (gramatycznie) dom – domek; możliwe są też odpowiedzi dźwiękonaśladowcze, np. dom – tom.
Uzyskana eksperymentalnie siła powiązania bodźca i odpowiedzi nie zawsze pozwala odróżnić skojarzenia semantyczne od pozostałych, przykładowo dla bodźca dom uzyskujemy skojarzenia: dach 0.024, zły 0.016, ściana 0.0019, podobnie w Edinburgh Associative Thesaurus (EAT) dla bodźca house uzyskamy listę: roof 0.04, Jack 0.02, wall 0.01.
Siła powiązania bodźca i odpowiedzi może być różna dla różnych języków, jednak skojarzenia semantyczne są porównywalne (Rosenzwieg, 1961). Poniżej lista wspólnych skojarzeń semantycznych dla wieloznacznego wyrazu dom i angielskich odpowiedników home i house (Gatkowska i wsp., 2013, Gatkowska 2013, 2014).
home+house – dom | home – dom | house – dom |
---|---|---|
family – rodzina | family | garden |
garden – ogród | mother | flat |
mother – matka | cottage | roof |
roof – dach | garden | room |
flat – mieszkanie | parents | building |
building – budynek | peace | chimney |
chimney – komin | security | cottage |
parents – rodzice | warmth | mother |
room – pokój | brick | |
brick – cegła | warm | |
security – bezpieczeństwo | warmth | |
cottage – chata | ||
peace – spokój | ||
warm – ciepły | ||
warmth – ciepło |
Jeśli przeanalizujemy skojarzenia, w których bodziec jest semantycznie powiązany z odpowiedzią, to zauważymy, że najczęstsze są skojarzenia bezpośrednie, tj. takie które reprezentują relację semantyczną, np. dom – ściana (całość – część). Mniej częste są skojarzenia pośrednie, które możemy objaśnić za pomocą łańcucha relacji, np. baranina – wełna, gdzie musimy przyjąć łańcuch baranina – baran (źródło), następnie baran – runo (całość – część) i wreszcie runo – wełna (źródło). Można przyjąć, że ten typ skojarzeń opiera się na sieci semantycznej.
Odpowiedni liczny zbiór bodźców pozwala uzyskać sieć skojarzeniową, w której powiązania semantyczne stanowią zdecydowaną większość. Jednak sieć skojarzeniowa różni się od sieci semantycznych budowanych ręcznie, takich jak WordNet (Miller i wsp., 1990, 1998), czy FrameNet (Fillmore 1982, Fillmore i wsp., 2004). WordNet to sieć zbudowana wyłącznie za pomocą znanych językoznawstwu relacji paradygmatycznych (Lyons, 1972), więc w badaniach lingwistyczno-komputerowych ten programowy brak relacji syntagmatycznych usiłuje się skompensować za pomocą sieci uzyskanych w wyniku eksperymentu (Sinopalnikova i Smrz, 2004), (Budanitsky i Hirst, 2006). Natomiast FrameNet nie używa relacji semantycznych explicite, tworząc sieć złożoną z ram, tj. struktur semantycznych, którym można przyporządkować zdania i jedyne relacje w modelu to paradygmatyczne relacje zachodzące między ramami.
W rezultacie żadna z sieci budowanych ręcznie nie stanowi modelu pozwalającego opisać częste i występujące w trakcie badań różnych języków skojarzenia semantyczne typu: igła – nitka, chleb – masło, stół – krzesło, dom – drewno. Chcąc opisać takie skojarzenia potrzebujemy modelu, w którym sieć jest definiowana przez zbiór znaczeń i zbiór relacji zachodzących pomiędzy znaczeniami, i w którym relacje paradygmatyczne i syntagmatyczne są używane explicite, bowiem tylko taki model pozwoli sklasyfikować powiązania semantyczne w sieci skojarzeniowej. Potrzebny nam model stworzono w badaniach nad sztuczną inteligencją (Sowa, 2006) i jest nim Conceptual Dependency (Schank, 1972, 1975), tj. model zbudowany dla potrzeb badań nad automatycznym rozumieniem tekstu.
Zastosowania sieci skojarzeniowej
Sieć uzyskana w wyniku eksperymentu dostarczy danych do badań:
– językoznawczych, badanie właściwości relacji semantycznych: syntagmatycznych i paradygmatycznych, badanie właściwości zależności semantyki i gramatyki oraz badań porównawczych struktur semantycznych różnych języków,
– komputerowych badań nad semantyczną strukturą tekstu oraz badań nad semantycznymi mechanizmami wyszukiwania w sieci,
– psychologicznych i psycholingwistycznych badań nad pamięcią semantyczną,
– antropologiczno–kulturowych,
– diagnostycznych w medycynie, poszerzając model wzorca diagnostycznego.
Test swobodnych skojarzeń słownych
Test swobodnych skojarzeń słownych został zdefiniowany przez psychiatrów (Kent-Rosanoff, 1910). Testowi poddano 1000 osób, a w wyniku testu uzyskano wzorzec diagnostyczny (association norm). Test cyklicznie powtarzano, a powtarzalność wyników pozwalała zwiększać liczbę bodźców zmniejszając liczbę badanych: 200 bodźców i 500 badanych (Palermo, Jenkins 1964), 8400 bodźców i 100 badanych (Kiss, Armstrong, Milroy, Piper ,1973). Ten ostatni – trwający kilkanaście lat – test pozwolił zbudować Edinburgh Associative Thesaurus (http://www.eat.rl.ac.uk/). Dla języka polskiego test swobodnych skojarzeń słownych na tak dużą skalę przeprowadzono tylko raz (Kurcz, 1967) i było to powtórzenie testu Kent-Rosanoffa (lista Kent-Rosanoffa przetłumaczona na język polski).
Lingwistyka komputerowa (Church i Hanks, 1990) rozpoczęła poszukiwania alternatywy dla testu prowadzonego na ludziach, generując listy skojarzeniowe na podstawie korpusu tekstów. Jednak badania porównawcze pokazały, że tylko ułamek skojarzeń generowanych automatycznie pokrywa się ze skojarzeniami uzyskanymi w wyniku eksperymentu (Rapp i wsp., 2005, Rapp, 2002, 2008), (Wandmacher, 2005, 2008), (Gatkowska i wsp., 2013). Stosunkowo niedawno lingwistyka komputerowa rozpoczęła testowanie ludzi, łagodząc jednak rygory testu psychologicznego, np. dopuszczając kilka odpowiedzi dla pojedynczego bodźca (Schulte im Walde, Borgwaldt, Jauch., 2012, De Deyne, Storms, 2008, http://www.kuleuven.be/semlab/interface/index.php) lub stosując bodźce złożone (Rapp, 2008, 2013). Jednak nasz eksperyment fazowy, zmierzający do budowy bogatej sieci skojarzeniowej (Gatkowska, 2013, 2014) zachowuje rygory eksperymentu psycholingwistycznego – tj. badany podaje tylko jedną odpowiedź, mając ograniczony czas na udzielenie odpowiedzi.
Eksperyment autorski pozwalający na budowę sieci skojarzeniowej
Potrzebujemy bogatej sieci skojarzeniowej i by ją uzyskać musimy zmodyfikować przebieg eksperymentu, dzieląc go na fazy: zaczynamy od określonego zbioru bodźców, a w fazie następnej skojarzenia stają się bodźcami i tak dalej. Dlatego opisany niżej eksperyment autorski to eksperyment fazowy przeprowadzony w warunkach kontrolowanych, za pomocą systemu komputerowego (Gatkowska 2013, 2014)
Opis eksperymentu prowadzonego w KLK
– Eksperyment, przeprowadzony w laboratorium komputerowym za pomocą specjalistycznego systemu komputerowego. System prezentuje wyrazy bodźce i zapisuje odpowiedzi. Grupa badanych: studenci. Badanie anonimowe, każdy z badanych zaznacza płeć i podaje swój wiek.
– Instrukcja dla badanych pojawia się na monitorze każdego badanego przed rozpoczęciem testu. Dodatkowo osoba prowadząca test odczytuje na głos instrukcję.
– Po przeczytaniu instrukcji każdemu z uczestników testu na ekranie pojawia wyraz -bodziec, a uczestnik wpisuje skojarzenie. Po wpisaniu skojarzenia (lub gdy minie czas na wpisanie) na ekranie pojawia się kolejny bodziec. I tak do wyczerpania listy bodźców. Wyniki testu od razu zasilają bazę.
– Liczba i uporządkowanie bodźców są identyczne dla każdego badanego.
– Czas przeznaczony na udzielenie odpowiedzi został ustalony eksperymentalnie w badaniu pilotażowym (Gatkowska 2013).
– Osoba prowadząca test przebywa w laboratorium przez cały czas.
– Dobór wyrazów bodźców:
– faza I: 60 bodźców z listy Kent-Rosanoffa, wersja polska, głównie rzeczowniki (ok. 80%).
– faza II: 260 bodźców, po 5 najczęstszych skojarzeń dla każdego bodźca użytego w fazie I.
Próbki sieci
RZECZOWNIK:
baranina, chleb, głowa, jedzenie, krzesło, księżyc, lampa, praca, ptak, ręka, woda, żołnierz
PRZYMIOTNIK:
biały, ciężki, czerstwy, duży, głęboki
CZASOWNIK:
Literatura
– Budanitsky A., Hirst G., 2006, Evaluating wordnet-based measures of lexical semantic relatedness. Computational Linguistics 32.1, s. 13-47.
– Church K. W., Hanks P., 1990, Word Association Norms, Mutual Information and Lexicography. Computational Linguistics, t. 16, 1, s.22-29.
– Clark, H. H. ,1971, Word Associations and Linguistic Theory [w]: “New Horizon in Linguistics”, red. J. Lyons, Penguin, s. 271-286.
– De Deyne, S., Storms, G. 2008, Word associations: Network and semantic properties. [w:] Behavior Research Methods, 40 (1), s.213-231.
– Fillmore, Ch. J.,1976, Frame semantics and the nature of language, Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. 280 20-3
– Fillmore, Ch. J, 1982, Frame semantics, Linguistics in the Morning Calm. Seoul, South Korea: Hanshin Publishing Co.,s. 111-137.
– Fillmore, Ch. J., Collin F. Baker C. F., and Sato H. 2004, FrameNet as a „Net” Proceedings of LREC. t. 4. Lisbon: ELRA, s. 1091-1094.
– Gatkowska, I., 2014, “Word Associations as a Linguistic Data” [w] Languages in Contact 2012, t.1, red. P.Chruszczewski, J.Rickford, K. Buczek, A. Knapik, J. Mianowski, Wrocław, 79-92.
– Gatkowska, I., 2013, Przetwarzanie informacji językowej. Podstawy kognitywne. [ w:] „Interfejs dla osób z dysfunkcją wzroku. Model kognitywny i przykład dobrej praktyki”, red. I. Gatkowska , W. Lubaszewski , Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 9-45.
– Gatkowska I., Korzycki M., Lubaszewski W., 2013, Can Human Association Norm Evaluate Latent Semantic Analysis? Proceedings of the 10th NLPCS Workshop, Marseille, 2013., s.92-104.
– Gatkowska I. 2012, „Diagnoza dyzartrii u dorosłych w neurologii klinicznej”, ISBN 978-83-233-3277-0, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków.
– Kent, G. H., Rosanoff, A. J. 1910, A study of association in insanity. [w:] American Journal of Insanity 67 (37-96), s. 317-390.
– Kiss, G.R., Armstrong, C., Milroy, R., Piper, J.,1973, An associative thesaurus of English and its computer analysis, [w]: “The Computer and Literary Studies” red. Aitken, A.J., Bailey, R.W.
– Kurcz I. 1976, „Psycholingwistyka”, PWN, Warszawa,
– Kurcz I., 1967, Polskie normy powszechności skojarzeń swobodnych na 100 słów z listy Kent-Rosanoffa [w]: Studia Psychologiczne, t.VIII, s.122- 255.
– Lyons J.,1972, “Structural Semantics. An Analysis of Part of the Vocabulary of Plato”, Basil Blackwell, Oxford.
– Miller, G. A., Beckwith, R., Fellbaum, Ch., Gross, D., Miller, K. 1990, Introduction to WordNet: an on-line lexical database. [w]: “International Journal of Lexicography”. 3 (4), 235 – 244.
– Miller G.A., Beckwith R., Fellbaum Ch., Gross D., Miller K., 1998, Introduction to WordNet: An On-line Lexical Database, [w]:“WordNet An Electronic Lexical Database”, red. Ch. Fellbaum, Cambridge Mass.
– Palermo D.S., Jenkins, J.J., 1964, “Word Associations Norms: Grade School through College”, Minneapolis.
– Rapp, R., 2013, From Stimulus to Associations and Back, Proceedings of the NLPCS Workshop, Marseille, 2013, s.78-91.
– Rapp R., 2008, The Computation of Associative Responses to Multiword Stimuli, Proceedings of the workshop on Cognitive Aspects of the Lexicon (COGALEX 2008): Coling 2008, s. 102–109. Manchester,
– Rapp, R., 2002 , The Computation of Word Associations: Comparing Syntagmatic and Paradigmatic Approaches, Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
– Rosenzwieg, M. R. 1961, Comparisons among word-association responses in English, French, German, and Italian. [w:] Amer. Journal Psychol.t.64,
– Sinopalnikova,A., Smrz,P., 2004, Word Association Thesaurus as a Resource for extending Semantic Networks, Proceedings of the International Conference on Communications in Computing, CIC ’04, Las Vegas, Nevada, USA, s. 267-273.
– Schank R.C. 1972, „Conceptual Dependency: A Theory of Natural Language Understanding”, Cognitive Psychology, t. 3, s. 552-631.
– Schank R. C., 1975, “Conceptual Information Processing”, North-Holland.
– Schulte im Walde, S., Borgwaldt,S., Jauch,R., 2012, Association Norms of German Noun Compounds , [w]: Proceedings of the 8th LREC Conference, Istanbul.
– Sowa, J. F., 2006, “Semantic Networks”. [w]: Encyclopedia of Cognitive Science. New York: John Wiley & Sons Ltd.
– Wandmacher, T., 2005, How semantic is Latent Semantic Analysis, Proceedings of TALN/RECITAL 5 .
– Wandmacher T., Ovchinnikova E., Alexandrov T., 2008 Does Latent Semantic Analysis reflect human association , Proceedings of the ESSLLI Workshop on Distributional Lexical Semantics.
– Wettler M., Rapp R., Sedlmeier P., 2005, Free word associations correspond to contiguisties between words in text, Journal of Quantitative Linguistics, 12(2), s. 111–122.