Karjalan kieli klusterilois

Martti Penttonen, 24.4.2022

Ku pidäs nimittiä yksi ristikanzu, kudai äijän on ruadanuh karjalan kielen hyväkse, sanozin ku se on Dmitrii Bubrih. Se ei ripu yksin hänen maltos da ottavundas. Ylen äijäl se rippuu histouriellizes tilandehesgi. Samah aigah Suomes Edvard Ahtia äijäl ottavui karjalan kielen ruadoh, a suomelaine nationalizmu ei tahtonuh tiediä karjalan kieles. Inkerikko Väinö Junus luadi ižoran kirjukielen kieliopin – hänet tapettih Stalinan vainolois. Pandih Bubrihuagi tyrmäh, a häi jäi hengih da ruadoi ielleh.

Ven'al revol'utsii sevoitti valdurakendehii. Oligo se ideolougizis vai taktizis syylöis, ga 1920-luvul ruvettih nostamah kymmenii vähembistökielii yhteiskunnas pättävikse kielikse. Elävy kieli tarviččou kirjaimikon, kieliopin, aijanmugazen sanaston, opastuksen da mahton käyttiä sidä yhteiskunnallizes elaijas. Bubrih sai vuonnu 1930 ruavokse kehittiä kirjukieli Kalininan alovehen karjalazile. Vuonnu 1937 häi sai saman ruavon Karjalas (Anttikoski 1998, Bubrih 1937). Se vedi Bubrihua vie suurembah projektah – sellittiä, kui karjalazet paistah ei vaiku Kalininan (Tverin) alovehel a Karjalasgi. Projektu jatkui vie hänen ennenaigazen kuolendan jälgehgi. Vie nygöigi tutkijat ruatah Bubrihan projektas kerätyn materjualan kel. Jygei dokumentu Bubrihan alletus projektas on murrehatlas (Bubrih et al. 1997), kudamas sellitettih murreheroloi nenga kahtensuan kyzymyksenke nenga kahtessuas eländykohtas. Kai kerätty materjualu ei syndynyh atlasah.

Murrehatlasan käyttö

Murrehatlas on vägi suuri pala kerras nieldäväkse. Kalevi Wiik, kudai jo oli luadinuh suomen murdehien kvantitatiivizen verdailun (Wiik 2004a), verdaili karjalan murdehii murrehatlasan tiedoloin mugah. Kvantitatiivine tarkoittau sidä, ku joga paikas kačotah, monesgo piirdehes se eruou susiedois. Wiik käveli atlasas pohjazes suveh da päivänlaskus päinännouzuh da vedi eroliiniet suurimbien eroloin kohtah. Eroloin kačondah niškoi häi luadii paikallizii erotaulukkoloi. Passibo paikalližuon, erotaulukot ei roittu liijan suurikse käzin čotaittavakse. Wiikan piättelyn mugah karjalan kielen murdehet jagavutah kahteh piäluokkah, yhtel puolel varzinkarjal da tverinkarjal, toizel puolel liygi da lyydi, da net mollembat kahteh luokkah ielmainitul taval. Bubrih omassah kieliopis jagoi viizi piämurrehtu kahteh kluassah: yhtel puolel pohjaskarjal, keskikarjal da tverinkarjal, toizel puolel livvinkarjal da lyydi. Häi vie ližiäy, ku keskikarjal da tverinkarjal ollah lähäl toine tostu.

Atlasverdailulois suuri vaigevus on datan miäry. Paikkupuaroi on 186×185/2 yhty suurdu erotaulukkuo luadijes. Paikkoin ozajoukkoloi voi vallita 2186 taval. Kahten paikan eron miärittelys pidäy kaččuo vastavukset 206 kartal, a ku himoittau kaččuo ozua kartois, ozajoukkoloi on 2206. Yhtel kartal jogahizel paikal on erilazii vastavusvaihtoehtoloi erähičči enämbi kymmendygi. Erähiči kyzymykseh on vastattu monel taval, toiči niyhtel.

Graafialgoritmat ollah hyvin tutkittu informatiekan probliemu sentäh, ku monet logistiekkuproliemat voi nähtä graafiprobliemoinnu. Vuonnu 1927 čehieläine inženieru Otakar Borůvka (Borůvka 1926) ezitti yksinkerdazen algoriman, kun luadie optimualine sähköverko, ts. kudai tarviččou minimualizen miärän sähkölangua. Sama algoritmu on keksitty uvvelleh moneh kerdah da rinnakkaisalgoritmoin tutkijat huomattih, ku sama ideju pädöy rinnakkaisalgoritmaksegi. Juuri Borůvkan algoritman rinnakkaistettu versii pädöy murdehien verdailuh. Se keriäy enzimäi lähekkäzet, ei äijiä eruojat "kylämurdehet" "alamurdehikse". Toizel kierroksel alamurdehet kerävytäh "alovehmurdehikse" i nenga ielleh. Monen kierroksen jälgeh murdehet kerrytäh "piämurdehikse" da jälgimäi yhtekse "kielekse". Yksinkerdastajen algoritman voi ezittiä pseudo-ohjelmannu:

  Annettu joukko paikkoi da kritieru paikkupuaran eron E(p,q) miäriändäh
  for all paikku p do
    eči paikku q, kudamale E(p,q)=min
    yhtistä p da q nuolel p->q
  Net paikat kudamat on yhtistetty nuolel kerävytäh klusterikse
  Klusteris on tyvipuaru p da q kudamile p->q da q->p
  Tyvipuaran enzimäine jäzen (mistahto jälletykses) olgah klusteran
    tyvi, kudai edustau klusteran murdehii.
  while klusteriloi on enämbi yhty do
    for all klusterit K, L do 
      EK(K,L) = min {E(p,q)| p in K, q in L}
      for all klusteri K do
        eči klusteri L, kudamale EK(K,L)=min
	yhtistä K da L nuolel K->L (tyves tyveh)
      Yhtistä nuolel yhtistetyt klusterit yhtekse klusterikse
      Miäriä  yhtistetyn klusterin tyvi
Rippujen sit, kui erilazii murdehet ollah tazoloi voi olla mondu. Huomua, ku joga kierroksel klusteriloin lugu pienenöy puoleh libo vie vähembäkse. Sentäh 200 paikan verdailus tazoloi on enimyölleh log2(200)=7, tovennägözesti pienembi.

Algoritmu olen kirjutettanuh Javascript-ohjelmakse, kudai löydyy linkis atlas/atlas.html. Sivun huras yläčupus on linki lyhyöh käyttöohjeheh.

Data

Klusteroinduohjelman kielitiedo on 206 tiijostos, kudamih on tallendettu Karjalan kielen murrekastaston kartoin 4-209 tiijot. Tiijostot ollah muoduo
  k004
  Enzi tavun aa
  mua/muo/moo/moa/maa/mia/ma
  001:b
  002:a
  ---
kudai sanou, ku paikas 1 (Mägrii) enzitavun aa suau vaihtoehton b mugazen muvvon uo, ts. mua on Mägriäs muo. Paikas 2 (Kuittiine) mua on mua. Ohjelmu on graafine, sentäh paikkoin koordinuatatgi pidäy syöttiä yhtes tiijostos. Tiijot ohjelmale syötetäh kieliopillizen piirdehen mugah. Tiijon keriäjälle luonnollizembi tallendustaba on sijoittua tiijot paikan mugah da tiijostoh kirjuttua formuatas
  [1,"Mägrii",409,1313]
  a [4,"Enzi tavun aa",["mua","muo","moo","moa","maa","mia","ma"]],
  a [5,"Enzi tavun ää",["piä","peä","pee","pää","pie","pä","pöä"]],
  ---
kudamas enzimäzel rivil annetah paikan noumer, nimi da koordinuatat da rivis 2 edehpäi Mägriäs annetut vastavukset kartoil 4, 5 i m.i. Ku tieduo mihtahto kyzymykseh ei ole suadu, sit kohtah kirjutetah -. Toiči vastuksii on mondu – net eroitetah pilkul. Täs formuatas kirjutettulois kaikkien paikkoin tiijostolois voi automuattizesti luadie kaiken, min klusteroinduohjelmu tarviččou.

Rajakarjalaine data

Bubrihan murrehprojektas ei kerätty tieduo karjalan kielen pagizendas Nevvostoliiton ulgopuolel. Sentäh murrehatlasas ei ole tieduo rajakarjalazien pagintavois. Karjalan kieli kielioppilois [NPRS 2020] kirjan klusterikartat luajiin eččimäl vastavuksii Bubrihan kyzymyksih Eino Leskizen kirjas (Leskinen 1934) kuvven rajakarjalazen pidäjän kielinäyttehis da Karjalan kielen sanakirjas (KKS). Verdailii karjalan kielioppi -projektanke samah aigah ruadanuos FINKA projektas (RKK 2018) litteroittih suuri miäry nämis pidäjis kerättylöi kielinäyttehii. Pyhkin tekstois kyzelijöin paginat da laihinsanoin sellitykset nenga ku tekstah jäi vaiku murrehtekstu, kaikkiedah enämbi nelliä megatavuu (miljonua kirjaindu). Ečiin vastavuksii Bubrihan 206 kyzymykseh Unixan grep komendol. Rinnal käytin Karjalan kielen sanakirjua, Leskizen da Punttilan (Punttila 1992) pagizutteluloi. Kaikkih kyzymyksih ei löydynyh vastavustu, jo sengi täh ku, kaikis murdehis ei käytetä kaikkii kielioppimuodoloi. Enimän tyhjiä jäi Imbilahten da Ilomantsin vastavuksih, 15% – täs joukos oli kymmene refleksiivutaivutuksen kyzymysty, nenga 5%, sentäh ku nämis murdehis refleksiivutaivutustu ei käytetä. Vastavuksien luadu ole samal tazol migu Bubrihan projektas, kudamas nimenomah kyzyttih vastavuksii sih tarkoitukseh luajitun kyzymyskniigazen mugah.

Paiči Raja-Karjalan murdehii, paikkoih on ližätty nelli vepsän murrehtu: paikat 193-196, Tihvinän (Selišče) da Vaildain murdehet: paikat 197-198, da viizi normitettuu kielioppii: Bubrihan, Ahtian, Zaikovan, Markianovan da Junuksen, paikat 199-203. Junuksen kielioppii ei voidu sijoittua "kodirannal".

Ezimerki: Klusteroindu paikois 1-192 atlaskartoin 4-209 mugah

Internetas Javascript-kielizen klusteroinduohjelman voi avata verkoadresis https://karjalankieli/kielitiedo/verdailu/atlas/atlas.html Kebjevin taba piästä alguh on painaldua KAI-nybliä ylähän da sit AJA-nybliä oigiel. Se luadiu klusterikartan, kudamah otetah tiijot kaikis paikois 1-192 kaikkien atlaskartoin 4-209 tiedoloinke. Kartan tazoloi kačotah valliččeman AJA-nyblän oigiel puolel tazonybly 1, 2, ... Oigien yläčupun kodažikol voi vallita mittuziitahto kombinatsieloi paikois da kartois: 1-150 Karjal 151-186 Tver, 187-192 Raja-Karjal, 193-196 Vepsä, 197-198 Tihvin da Valdai, 199-203 normitetut kieliopit (Bubrih, Ahtia, Zaikov, Markianova, Junus). Alolijois kuvis voi nähtä KAI-valličendan klusteritazot 1-4:





Piätelmii da kritiekkua

Ihan enzimäi pidäy sanuo, ku klusterikartoile ei pie andua suurembua eigo pienembiä merkičysty migu se, mi niilöile kuuluu. Kui lugie libo ei lugie klusteriloi?

Klusterit ozutetah se, midä ozuttamah net on luajittu. Klusteri ozuttau murdehen lähimän "murrehsusiedan", da korgiemmal tazol, klusteri löydäy lähimän murrehklusterin. Klusteriloin "susiedu" -ominažus ei perustu geogruafizeh lähäžyöh libo yhtehizeh kielihistourieh a vaiku niilöis vastavuksih, kudamat on suadu Bubrihan kyzelyprogramman mugazih kyzelylöih. Toinah vastavukset sellitytäh yhtehizel histouriel, eländäl lähäl toine tostu lähihistouries, libo muus syys. Algoritman luajitut klusteroindan tazot ollah analougizet kielihistouriellizille piämurdehen, murdehen, alamurdehen i m.i. tazoloile, ga net ollah roittu vastavuksis ilmai filolougan mielii. Algoritman rekursii lopeh yhteh klusterih, hos verdailuh otettas Suistamon murreh da mitah suviafrikkalaine murreh. Manualizesti moizet klusterit da verdailut jiädäs luadimattah suurien tiedomiärien täh. Eigo algoritmal ole tendensua vediä omien mieldymyksien suundah.

En malta engo rubie täs kielitiijollizesti sellittämäh, mintäh paikat kuulutah samah libo eri klusterih. Moizii sellityksii löydyy kirjas [NPRS 2020] da julgavos [NP 2021]. A mieldykiinnittäjii huomavoloi voi luadieh kuviigi kačelles. Toinah kuvat taritah inspiratsiedu toizenlazele tutkimuksele.

Yksi huomavo on, ku yleiskuva on stabiilu, eigo yksittäzien paikkoin iärehottamine libo hairavot tallendukses herkäh muuteta kuvua. Muantiedo nägyy ezim. sanastos, ven'an da suomen vaikutukses. Se nägyy sežo konsonantoin pehmendymizes. Vuottamatoi a selvy ilmivö on rajakarjalazien puuttumine yhteh tukkuh liygiläzien da lyydiläzienke rippumattah sit, ollahgo hyö kielihistouriellizesti varzinkarjalazii vai livvinkarjalazii. Kenenke elät, hänenke rubiet pagizemah samah tabah. Ga rajatgi vaikutetah. Ezimerkikse FINKA-projektas litteroittuloil Ilomantsin eläjil oli sugulazii Por'arven suunnal, ga jo enne "rauduzuavesin" nostandua da semmite sen jälgeh suomi rubei tungevumah paginah. Litteroitettulon pagizutteluloin aigah 1960-luvul suomen kieli jo äijäl nägyy paginois.

Ohjelmas kahten paikan ero on 0, ku niilöin vastavukses on yhtehine valličendu. Ezimerkikse kartal 4, ku yhtes paikas vastatah koodoil a,b ("mua", "muo") da toizes paikas b,d ("muo","moa"), ero on 0, a ku toizes vastattasgi c,d, ero on 1. Ku sih ollou syy, eron voi eri tavalgi miäritellä.

Lopukse kaksi kuriositiettua, kudamih klusteroinduohjelmu taričči mahton. Ohjelman ydin on murreherotaulukko. Čotaičemal taulukon rivilöil keskiarvot, voi piätellä, kui keskel karjalua tämä paikku on. Suurin mahtolline keskiero on 206. Tämän čotaičendan mugah viizi keskimästy paikkua ollah 97 (Rebol'a, keskiero 87), 95, 116, 122, 98, kuduat ei olla muga loitton piälmainitus Ilomantsis. Kargiesti estimoijen keskel ollah keskikarjalazet, sit vienalazet, tveriläzet, liygiläzet da lyydiläzet. Viizi jälgimästy paikkua ollah 5 (Kuudärv, keskiero 147), 4, 58, 56, 60. Toine šuutkakas "tutkimustulos" oli kaččuo, kunne sijoitutah normitetut kieliopit. Bubrihan, Ahtian, Zaikovan da Markovan kieliopit on sijoitettu painotetun keskiarvon mugazeh paikkah. (Lähimän susiedan paino 1/2, toizekse lähimän 1/4, i nenga ielleh 1/8, 1/16, ...). Ozutahes, ku Bubrih sijoittuu aiga lähäl pienimän keskieron paikkua. Tazapuolizesti sijoitettu kirjukieli keskele murdehii!

Vihjavukset

  1. (Ahtia 1938) Edvard V. Ahtia: Karjalan kielioppi I Karjalan kansalaisseura, 1938.
  2. (Anttikoski 1998) Esa Anttikoski: Neuvostoliiton kielipolitiikkaa. Karjalan kirjakielen suunnitelu 1930-luvulla Lisensiatintutkielma, Joensuun yliopisto, 1998.
  3. (Atlas 1997) D.V. Bubrih, A.A. Beljakov, A.V. Punžina: Karjalan kielen murrekartasto. Suomalais-Ugrilainen Seura, 1997.
  4. (Borůvka 1926) Otakar Borůvka: O jistém problému minimálním. Práce Moravské přírodovědecké společnosti, sv. III, spis 3, 1926, 37-58.
  5. (Bubrih 1937) Д.В. Бубрих: Грамматика карельского языка. Петрозаводск 1937.
  6. (Junus 1936) Väinö Junus: Ižoran keelen grammatikka Ucpedgiz, 1936.
  7. (KKS) Karjalan kielen verkkosanakirja Suomalais-Ugrilainen Seura 1968-2005. https://kaino.kotus.fi/cgi-bin/kks/karjala.cgi
  8. (Leskinen 1934). Eino Leskinen, Karjalan kielen näytteitä II, Suomalaisen Kirjallisuuden Seura, 1934
  9. (Markianova 2002) L'udmila Markianova: Karjalan kielioppi 5-9, Periodika 2002.
  10. [NP 2021) Irina Novak, Martti Penttonen: Analysis of Karelian dialect division based on algorithmic clustering. Linguistica Uralica LVII 2021:2 1-21.
  11. (NPRS 2020) Irina Novak, Martti Penttonen, Aleksi Ruuskanen, Lea Siilin: Karjalan kieli kielioppilois. Karjalan kielen kodi, 2020.
  12. (Punttila 1992) Matti Punttila: Impilahden karjalaa. Castrenianumin toimitteita 41 (1992)
  13. (RKK 2018) Raja-Karjalan korpus. Kotimaisten kielten keskus, Palander, M., Koivisto, V., & Riionheimo, H. (2018). Raja-Karjalan korpuksen ladattava versio [puhekorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2017121322
  14. (Wiik 2004a) Kalevi Wiik: Suomen murteet: kvantitatiivinen tutkimus. Suomalaisen Kirjallisuuden Seura, 2004.
  15. (Wiik 2004b) Kalevi Wiik: Karjalan kielen murteet: kvantitatiivinen tutkimus. Fenno-Ugristica 26: 239-302 (2004).
  16. [Zaikov 2002 Pekka Zaikov. Karjalan kielioppi 5-9, Periodika 2002.