Murrehatlasan visualizoindu

Revol'ucien jälgeh Ven'al kielipolitiekas tuli valdupolitiekkua. Bol'ševikkuvaldu oppi kiändiä vähembistöt iččeh puolele kirjahmaltokampuaniel. 1920-lugu oli kirjahmaltokampuaniloin da kirjukielien luajindan aigua. Karjal myöhästyi täs sentäh, ku valdu karjalas oli annettu ruskieloile suomelazile. Karjalan kieline kirjahmaltokampuanii piäzi algamah vastevai, ku Karjalan suomimieline hallindo tahtoi levittiä karjalazien suomelastamizen tverinkarjalazih. Kirjahmaltokampuanii, karjalankieline opastus školas da kirjakielen luajindu algoi Tverin Karjalas v. 1930, da jatkui Karjalas vuozikymmenen toizel puoliškol suomelazen hallindon likvidoindan jälgeh. Kieliruavon tiijollizekse vedäjäksi rubei Piiteriläine lingvistu Dmitrii Bubrih. Bubrih suunnitteli kyzelyprogramman karjalan kielen piirdehis da sidä ruvettih todevuttamah Karjalan tazavallan kylis. Programmua jatkettih sen jälgehgi, konzu Nevvostoliitto jo kiändyi vähembistölöi vastah da Bubrihan kuolendangi jälgeh. Karjalan kielen murrekartasto

Murrehatlas

Alguperäzeh murrehatlasah niškoi 1930-luvul kerättih tieduo 150 kartale merkitys kyläs. Tiijon keriändy meni kyzelykniigazen mugah, kus on 2000 kyzymysty. Yhtel atlasan sivul ozutetah yhteh kyzymykseh kaikis 150 kyläs annetut vastavukset. Ga Murrehatlas kirjas on vastavukset vaiku 204 kyzymykseh, loput 1800 "sivuu" lövvytäh arhiivas. Täs kuvas on ozutettu, kui sana "mua" sanotah kusgi kyläs.

Ga kirjakse Murrehatlas painettih vaste vai Suomes 1997. Sih kerättih vie tiijot 36 tverinkarjalazes kyläs. Sen jälgeh ei ole toimehpandu nenga massiivistu kyzelyy da netgi Atlasanaigazet tiijot ollah vahnattu. Yhtelläh Bubrihan kyzymyksih voimmo eččie vastavuksii Eino Leskizen murrehnäytekirjois, FINKA-projektas litteroittulois paginois, pienembien ekspedicielöin kyzelylöis da kielioppiloisgi. Nenga voimmo lizätä paikkoih 6 rajakarjalastu kyliä, nelli vepsälästy kyliä, kaksi suarekehkarjalastu kyliä da 9 kielioppii. Nämä tiijot ei olla luotettavat, ga yhtelläh net ollah suundua-andajat.

Atlasas erotaulukokse

Midäbo voi piätellä nämis (150+36+6+4+2+9)x209 vastavukseh, hos unohtammogi net 150x(2000-209) vastavustu? Suuri ruado? Tyhjiä enämbi tiijämmö kahten kylän paginan erilazuos lugemal, monehgo Bubrihan kyzymykseh niilöis vastattih eri taval. Ku jogahine paikku eččiy vähimän eruojan susiedan, kylät jagavutah klusteroikse. Ga sit voimmo eččie joga klusterile vähimän eruojan klusterin. Nenga rodieu klusteriloin hierarhii, muga kui "paikallismurdehet", "murdehet", "kielet" , ...

Kačommo konkriettistu ezimerkii.

     5: a,a,... 
    16: e,d,... 
    57: a,a,... 
    87: c,c,... 
Huomuammo, gu paikat 5 da 57 ei erota kyzymyksis 4 da 5, a muut erotah toizis mollembis kyzymyksis. Erotaulukonnu:
         5 16 57 87
       ------------	
     5 | 0  2  0  2
    16 | 2  0  2  2
    57 | 0  2  0  2
    87 | 2  2  2  0

Kačommo nygöi vähäzen realistizembua esimerkii. Äijängo erotah toine toizes paikat 5=Kudärv, 16=Suurimägi, 57=Kondu, 87=Poodene, 97=Rebol'a, 140=Kiestinki, 179=Tolmačču, da 190=Suojärvi ku verdailus kačotah kaikkii 206 atlasan kyzymysty:

            5   16   57   87   97  140  179  190  keskiero
        ----------------------------------------
      5 |   0  135   83  169  185  190  174  143  154.1
     16 | 135    0  142  140  152  155  161   72  136.7
     57 |  83  142    0  150  158  169  166  134  143.1
     87 | 169  140  150    0   71   93   97  108  118.2
     97 | 185  152  158   71   0    42   69   94  110.1
    140 | 190  155  169   93   42    0   79   92  117.1
    179 | 174  161  166   97   69   79    0  103  121,2
    190 | 143   72  134  108   94   92  103    0  106.6
Sit voimmo čotaija jogahizen paikan keskimiäräzen eron toizis, ezimerkikse paikan 5 keskimiäräine ero toizis on (0+135+83+169+185+190+174+143)/7=154.1. Čotaičendan mugah täs joukos keskimäzimbät ollah Suojärvi da Rebol'a, da iärimbäzet ollah Kudärv da Kondu.

Lähimät susiedat

Kieli kehittyy ymbäristön ehtoloin mugah. Sentän lähimbien susiedoin paginua ellendämbö parembi migu loittozien eläjien. Kui se nägyy erotaulus. Merkičemmö erotaulukos lähimän susiedan:
            5   16   57   87   97  140  179  190
      ----------------------------------------
      5 |   0  135   83  169  185  190  174  143
     16 | 135    0  142  140  152  155  161   72
     57 |  83  142    0  150  158  169  166  134
     87 | 169  140  150    0   71   93   97  108
     97 | 185  152  158   71   0    42   69   94
    140 | 190  155  169   93   42    0   79   92
    179 | 174  161  166   97   69   79    0  103
    190 | 143   72  134  108   94   92  103    0
Piirrämmö nuolen lähimbäh susiedah:

Rodieu kolme "suardu", klusterua. Nenga Kuudärv da Kondu kuuluttas yhteh "murdeheh", Suuri Mägi da Suojärvi toizeh "murdeheh", da Poodene, Rebol'a, Kiestinki da Tolmačču kolmandeh.

Jatkammo. Ku klusteriloi on enämbi yhty, jatkammo klusteroindua yhtistämäl jogahine klusteri lähimbäh susieduklusterih. Ga ei ole klusteriloin erotaulukkuo. Klusteriloin K da L ero on pienin paikkoin p da q ero, mis p kuuluu klusterih K da q kuuluu klusterih L. Nenga tulemmo toizen tazon klusterih

Toizin sanojen, kai paistah samua "kieldy".

Klusteroindas siirdymine tazol ylembä puolendau klusteriloin luvun puoleh libo vähembäh.

Klusteroindualgoritmu

Tarkendammo nygöi piäl ezitetyn verbualizen algoritman pseudo-ohjelmakse, kudai jo mustoittau tiedokonehohjelmua:
    Annettu erotaulukko E
    for all paikka p do
      eči paikka q, kudamalle E(p,q) = min
      yhtistä p da q nuolella p → q
    Net paikat kudamat on yhtistetty nuolella kerävytäh klusterikse
    Klusteris on tyvipuara p da q kudamille p → q da q → p
    Tyvipuaran 1. jäzen (mistahto jälletykses) olgah tyvi.
    Tyvi edustau klusteran murdehie.
    while klusteriloi on enämbi yhtä do
      for all klusterit K,L do
        EK(K,L) = min{E(p,q)|p∈K, q∈L}
        for all klusteri K do
          eči klusteri L, kudamalle EK(K,L)=min
          yhtistä K da L nuolella K → L (tyvestä tyveh)
          yhtistä nuolella yhtistetyt klusterit yhteksi klusteriksi
          Miäriä yhtistetyn klusterin tyvi
Ohjelmoindukielekse Javascript on pättävy sentäh, ku senke ohjelmua voi ajua livaimel internetas. Ohjelmu syndyy 1500 Javascript rivile. Suurin vuitti rivilöis tarvitah käyttöliittymäh.

Klusteroinduohjelman käyttöliittymy

Klusteroinduohjelman voi käyttiä internetači täs adresis. Idejan toimindas suau valliččemal kai paikat da tiemat painaldamal kai nybliä, suorittamal klusteroindu ohjelman AJA! nybläl da kaččomal klusteroindan tazot painelemal 1, 2, 3 ... nyblii. Painaldamal livaimen järilleh nybliä piäzöy uudeh alguh.

Ohjelman käyttöh voi opastuo "hairuo da opi" menetelmäl, ga kaikkie toinah ei keksi da ellendä kaččomattah ohjehii. Ekruanu jagavuu kolmeh aloveheh: nybläžikkö, kodažikko da gruafi, kudaman alovel on nyblii ohjehien da tuloksien kačondah – jogahine paikkučökehgi on nybly kudaman tagan on paikkukohtastu tieduo.


Piälmainittu kai valliččou kerral kai paikat da tiemat. Ylembäl nyblyrivil vallitah paikoi alovehellizesti, alembal nyblyrivil kieliopillizii tiemoi. Kumbazii ollah valliččemas, se azetetah, kodazikon yläpuolel olijoil nyblil. Valličendat nävytäh kodažikol.


Kodažikon piäl toizen rivin nyblil da kodazil voi vallita paikkoi libo tiemoi yksi kerrallah libo segmentoi (enzin loppu, sit algu). Muzavat kodazet ozutetah valličendan.

Konzu valličendat ollah valmehet, ohjelmu ajetah AJA! nybläl. Sen oigiel puolel olijoil noumeroloil vallitah klusteroindan tazo. Paikkukohtazii tiedoloi kačotah painaldamal paikkučökehty.

Valličendan jälgeh, enne ajandua voi painaldua oigien yläčupun maxero nybliä. Sit ajandu ozuttau suurimman eron paikat da eron suuruon. A ku valličendan jälgeh enne ajandua painaldau debug nybliä, voi nähtä čotaičendan vaihehii askel askelel, ezimerkikse erotaulukot.

Klusteroindan tulokset

Pidäy mustua informatiekan perustozi: "garbage in, garbage out". Bubrihan aigaine data on parastu luaduu – 1930-luvun Karjalan tilandehes, Tverin alovel 1930 da 1990 luvun välizel aijal. Raja-Karjalan tiijot ohjelman ohjelman kirjuttajan tulkindoi Eino Leskizen näyttehis enne voinii da FINKA-projektan dokumentois pagolazien pagizutendois. Kielioppiloin data sežo on kirjuttajan tulkinda kielioppilois – lyydin kielioppii ei ni olluh, sen sijah on käytetty keskiarvuo Atlasan vastavuksis. Yhtelläh uskon, ku tulokset ollah oigiensuundazet. Lingvistan piätelmii klusteroindan tuloksis löydyy ezim. nämis julgavolois:
Perindöllizen piämurdehien luokittelun Irina nygöi piirdäy täh tabah:


Ezimerkilöi

Enzimäzes ezimerkis verduammo sibilantoin käyttyö rajakarjalas, livvis, vienas da tverinkarjalas:

Sibilantat, tazot 2 da 3.

Toizes ezimerkis verduammo kielioppiloin sibilantoi da sanastoloi:

Kielioppiloin sibilantat da sanastot.