Lauseopin arkiston aineistot *
Lauseopin arkiston morfologisesti ja syntaktisesti koodattu aineisto edustaa kolmea eri kielimuotoa: murrepuhuntaa sekä kirjoitettua ja puhuttua yleiskieltä. Lähes neljä viidesosaa aineistosta koostuu murteista, ja tämä onkin arkiston perusaineisto. Vertailumateriaalista pääosa on kirjoitettua yleiskieltä, joka edustaa kirjoitetun kielen eri tekstilajeja; noin kahdeksasosa vertailuaineistosta on lähinnä radion ja television lähetyksistä äänitettyä puhetta, yleensä alun perin puhuttavaksi kirjoitettua tai muuten valmisteltua puhuntaa. Arkiston koko tässä oppaassa käsitelty koodattu aineisto sisältää tällä hetkellä 182 aineistoyksikköä, joista 142 on pitäjittäisiä murrenäytteitä ja 40 yleiskielisiä tekstilajinäytteitä.

Murrenäytteet on litteroitu osaksi Turun yliopiston suomen kielen äänitearkiston, osaksi Suomen kielen nauhoitearkiston äänitteistä. Kaikkien otokseen kuuluvien nauhoitteiden kopioita säilytetään Turun yliopiston suomen kielen äänitearkistossa; siellä ovat myös puhutun yleiskielen nauhoitteet, jotka on erikseen valmistettu ja siirretty kirjoitusasuun Lauseopin arkiston aineistoa varten. Valmiita käsin kirjoitettuja litteraatioita ja puhutun yleiskielen tekstejä säilytetään Lauseopin arkistossa. Siellä ovat tallessa myös kirjoitetun yleiskielen näytteiden alkuperäistekstit lehtileikkeinä tai valokopioina.

1. MURREAINEISTO

Arkiston murreaineisto edustaa kaikkia nykyisen Suomen alueella puhuttuja suomen kielen murteita sekä lisäksi niitä murteita, joita puhuttiin Neuvostoliitolle viime sotien yhteydessä luovutetuilla alueilla ennen alueiden luovuttamista.

Murreotos on pyritty valitsemaan niin, että siitä tulisi murteistoittain mahdollisimman edustava. Valintatiheydeksi on määrätty, että suunnilleen joka neljäs pitäjä kultakin murrealueelta otetaan mukaan (otoskartta seuraavalla sivulla). Silloin, kun työ Lounais-Suomen murteista aloitettiin, oli vielä tavoitteena joka toinen pitäjä; tästä johtuu se, että lopullisessa aineistossa on lounaismurteista ja lounaisista siirtymämurteista keskimäärin joka kolmas pitäjä mukana. Seuraavassa taulukossa on esitetty murrenäytteiden jakauma päämurrealueittain:

Murrealue Pitäjiä
Lounaismurteet 20
Lounaiset siirtymämurteet 14
Hämäläismurteet 25
Pohjalaismurteet 27
Savolaismurteet 32
Kaakkoismurteet 15
_______________________________
Yhteensä 133

Yhdestä pitäjänmurteesta on yleensä valittu käsiteltäväksi yksi noin tunnin laajuinen äänite. Pitäjittäisen murreotoksen koko on kuitenkin määritelty ensisijaisesti sanemääränä. Yhden pitäjänaineiston normaalilaajuudeksi on asetettu 6 000 - 8 000 tekstisanaa. Ehdoton minimi on ollut 5 000 sanetta; jollei tämä määrä ole täyttynyt, on pitäjänaineistoa täydennetty toisella litteraatiolla. Näin on tehty yhdeksän pitäjän osalta. Sana aineistoyksikkö tarkoittaa murreaineistosta puhuttaessa koko pitäjänaineistoa, joka siis viimeksi mainituissa tapauksissa koostuu kahdesta eri äänitteestä.

Ensisijainen kriteeri murrenäytettä valittaessa on ollut se, että näyte on vanhakantaista, aitoa ja hyvää murretta eli että se edustaa mahdollisimman hyvin asianomaisen pitäjän vanhaa murrepohjaa. Hyvää murretta sisältävä äänite on kuitenkin joskus jouduttu hylkäämään heikon teknisen laadun takia.

Otoksen pohjana olevissa äänitteissä on vallitsevana puhetilanteena haastattelu, joka usein väljentyy kerronnaksi. Aineistoa valittaessa on pyritty siihen, että otokseen tuleva puheaines ei koostuisi vain kysymyksistä ja vastauksista vaan että myös murteenpuhujan vapaa puhunta ja samalla kerronta pääsisivät oikeuksiinsa. Valinnan perusteena ovat siis olleet myös haastateltavan kertojanominaisuudet; tähän sisältyy jonkinasteinen vaatimus puhunnan sujuvuudesta ja takeltelemattomuudesta. Mahdollisuuksien mukaan on koetettu saada myös sellaisia näytteitä, joissa kaksi murteenpuhujaa keskustelee keskenään; tällaisia näytteitä on arkiston otoksessa yhteensä 11.

Äänitteen sisältöön eli puheenaiheisiin on voitu kiinnittää huomiota vain vähän. On kuitenkin mahdollisuuksien mukaan pyritty siihen, että aiheet olisivat monipuolisia ja että näytteet edustaisivat sanastollisesti ja syntaktisesti rikasta kieltä.

Pyrkimys vanhakantaiseen murteeseen on aineistossa toteutunut hyvin ainakin murteentaitajien iän perusteella arvioituna. Arkiston murteenpuhujien syntymävuodet jakaantuvat eri vuosikymmenille seuraavasti:

Syntymäaika Henkilöitä Pros.
1860-luku 3 2
1870-luku 35 23
1880-luku 79 52
1890-luku 33 21
1900-luku 2 2
_____________________________
Yhteensä 153 100

Suunnilleen puolet murteenpuhujista on siis syntynyt 1880-luvulla. Kun lasketaan mukaan myös tätä aiemmin syntyneet, havaitaan, että viimeistään 1880-luvulla on puhujista syntynyt runsaat kolme neljäsosaa (76 %) ja viimeistään 1890-luvulla jo 98 prosenttia. Puhujista 76 on miehiä ja 77 naisia.

Murrenäytteiden äänitteet jakautuvat eri vuosikymmenille seuraavasti:

Äänitysaika Äänitteitä
1950-luku 9
1960-luku 121
1970-luku 12
__________________________________
142

Noin 85 prosenttia äänitteistä on siis valmistunut 1960-luvulla. Puhujien syntymäaikoja ja äänitteiden valmistumisaikoja vertailemalla havaitaan, että murteenpuhujat ovat varsin iäkkäitä, keskimäärin 80-vuotiaita.

2. YLEISKIELEN AINEISTO

Arkiston yleiskielinen aineisto on pyritty valitsemaan niin, että se edustaisi mahdollisimman monipuolisesti kirja- ja yleiskielen käytön eri lajeja. Tämä aineisto on kuitenkin kooltaan melko suppea, mistä sen edustavuus tietenkin kärsii. Otoksesta on rajattu kokonaan pois arkinen yleispuhekieli; mukana on vain lähempänä kirjakieltä olevia puhutun yleiskielen tekstilajeja. Kirjoitetun kielen alueelta ovat poissa sellaiset tekstilajit, jotka ovat kaukana keskimääräisestä kirjakielestä ja normaaliproosasta: esimerkiksi taideproosasta ja pakinoista on valittu mukaan vain sellaisia tekstejä, jotka ovat syntaktisesti ja stilistisesti suhteellisen lähellä normaaliproosaa; lyriikka on jätetty kokonaan pois.

Otoksessa on eri tekstilajeja edustavia aineistoyksikköjä yhteensä 40, ja ne jakautuvat kuuteen lohkoon seuraavasti:

1. Hallinnon kieli ja virkakieli (3 aineistoyksikköä)
2. Sanomalehtien kieli (14 aineistoyksikköä)
3. Aikakauslehtien kieli (7 aineistoyksikköä)
4. Tietokirjallisuuden kieli (9 aineistoyksikköä)
5. Radion, television sekä puhetilaisuuksien kieli (5 aineistoyksikköä)
6. Kaunokirjallisuuden kieli (2 aineistoyksikköä)

Yleiskielisiä tekstilajinäytteitä valittaessa on pyritty siihen, että ne olisivat mahdollisimman vertailukelpoisia murreaineiston aineistoyksikköjen kanssa. Siten yleiskieltä edustavan aineistoyksikön laajuus on määritetty samoin kuin yhden pitäjän murrenäytteen: laajuus on yleensä 6 000 - 8 000 tekstisanaa; minimikoko on 5 000 sanetta.

3. PITÄJÄ- JA AINEISTOLUETTELO
Pitäjän ja aineiston nimen jäljessä on näytteen tunnusnumero.
3.1. MURREAINEISTO
LOUNAISMURTEET
Luvia0011Masku0461
Eurajoki0021Velkua0491
Rauman mlk.0031Rymättylä0551
Rauma0032Rymättylä0552
Eura0041Muurla/Halikko0601
Lappi Tl0121Muurla0661
Pyhämaa0151Karuna0611
Kalanti0171Perniö0641
Taivassalo0231Kisko0671
Kustavi0241Paimio0751
Kustavi0242Uskela0781
Karjala Tl0311
LOUNAISET SIIRTYMÄMURTEET
Merikarvia1011Säkylä1421
Ahlainen1031Pöytyä1441
Noormarkku1051Koski Tl1471
Pori1111Tarvasjoki1491
Kokemäki1221Somero1611
Vampula1261Sammatti1731
Loimaa mlk.1311Vihti1771
HÄMÄLÄISMURTEET
Kihniö2031Ikaalinen2131
Kankaanpää2111Suodenniemi2221
Karkku2251Tammela3191
Punkalaidun2311Renko3221
Punkalaidun2312Hausjärvi3241
Pohjaslahti2431Lammi3321
Kuru2451Asikkala3351
Pirkkala2551Nurmijärvi3511
Vesilahti2611Askola3641
Juupajoki2751Iitti3721
Luopioinen2851Lapinjärvi3771
Sääksmäki3051Vehkalahti3851
Hattula3081Suursaari3921
POHJALAISMURTEET
Isojoki4021Lestijärvi4821
Kurikka4061Haapavesi4851
Peräseinäjoki4071Haapajärvi4911
Laihia4131Kestilä4961
Ylihärmä4251Paavola5041
Kauhava4261Temmes5111
Nurmo4281Hailuoto5171
Nurmo4282Yli-Ii5221
Veteli4411Ylikiiminki5251
Toholampi4531Salla5321
Himanka4561Kemi mlk.5421
Ylivieska4631Rovaniemi5441
Ylivieska4632Sodankylä5451
Pyhäjoki4721Alatornio5621
Pyhäjoki4722Muonio5671
SAVOLAISMURTEET
Pihlajavesi6021Joutsa6341
Soini6111Multia6441
Lappajärvi6151Laukaa6461
Jämsä6221Konginkangas6541
Sysmä6311Pihtipudas6661
Mäntyharju6811Lapinlahti7421
Mikkeli mlk.6861Vieremä7461
Punkaharju6931Sotkamo7511
Enonkoski6951Suomussalmi7611
Rautalampi7031Posio7631
Haukivuori7111Kitee7721
Rantasalmi7161Ilomantsi7811
Leppävirta7221Kiihtelysvaara7841
Tervo7241Kontiolahti7851
Riistavesi7291Liperi7881
Riistavesi7292Juuka7921
Nilsiä7371Juuka7922
KAAKKOISMURTEET
Savitaipale8021Koivisto8451
Taipalsaari8041Seiskari8531
Ruokolahti8071Rautu8611
Luumäki8111Räisälä8651
Lappee8161Lumivaara8741
Nuijamaa8211Parikkala8771
Antrea8271Sortavala mlk.8821
Muolaa8331
3.2. YLEISKIELEN AINEISTO
HALLINNON KIELI JA VIRKAKIELI
Lait ja asetukset9411
Komiteanmietinnöt9421
Viranomaisten päätökset ja kirjelmät9441
SANOMALEHTIEN KIELI
Pääkirjoitukset9501, 9502
Asia-artikkelit9521, 9522
Uutiset9531, 9532
Reportaasit9541, 9542
Kirjallisuus-, musiikki-, teatteri-, elokuva- ja taidearvostelut9561, 9562
Kolumnit ja pakinat ym. kevyet jutut9571, 9572
Urheiluselostukset9581, 9582
AIKAKAUSLEHTIEN KIELI
Reportaasit9611, 9612
Asia-artikkelit9621, 9622
Pääkirjoitukset ja vastaavat9651
Pakinat ja niihin verrattavat kevyehköt jutut9671, 9672
TIETOKIRJALLISUUDEN KIELI
Muistelmateokset9711
Historian tietokirjat9721
Yhteiskunnalliset tietokirjat9731
Humanistiset tutkimukset9741
Muiden alojen tietokirjat9751
Muiden alojen tutkimukset9761
Tietosanakirjat9771
Hartauskirjat9781
Matkakuvaukset9791
RADION, TELEVISTON YM. PUHUTTU KIELI
Radion ja television uutiset9811
Radion ja television ajankohtaiskatsaukset9821
Radion esitelmät9831
Radion hartauspuheet9841
Konferenssien, seminaarien ym.
kirjoitetut puheet ja esitelmät9861
KAUNOKIRJALLISUUDEN KIELI
Taideproosa9911
Näytelmät9921

* Teksti on hiukan muokattu ote Lauseopin arkiston oppaasta. Ks. Ikola Osmo (toim.) Lauseopin arkiston opas. Lauseopin arkiston julkaisuja 1. Turku 1985.