Lauseopin arkiston morfologisesti ja syntaktisesti koodattu aineisto edustaa kolmea eri kielimuotoa: murrepuhuntaa sekä kirjoitettua ja puhuttua yleiskieltä. Lähes neljä viidesosaa aineistosta koostuu murteista, ja tämä onkin arkiston perusaineisto. Vertailumateriaalista pääosa on kirjoitettua yleiskieltä, joka edustaa kirjoitetun kielen eri tekstilajeja; noin kahdeksasosa vertailuaineistosta on lähinnä radion ja television lähetyksistä äänitettyä puhetta, yleensä alun perin puhuttavaksi kirjoitettua tai muuten valmisteltua puhuntaa.
Arkiston koko tässä oppaassa käsitelty koodattu aineisto sisältää tällä hetkellä 182 aineistoyksikköä, joista 142 on pitäjittäisiä murrenäytteitä ja 40 yleiskielisiä tekstilajinäytteitä.
Murrenäytteet on litteroitu osaksi Turun yliopiston suomen kielen äänitearkiston, osaksi Suomen kielen nauhoitearkiston äänitteistä. Kaikkien otokseen kuuluvien nauhoitteiden kopioita säilytetään Turun yliopiston suomen kielen äänitearkistossa; siellä ovat myös puhutun yleiskielen nauhoitteet, jotka on erikseen valmistettu ja siirretty kirjoitusasuun Lauseopin arkiston aineistoa varten. Valmiita käsin kirjoitettuja litteraatioita ja puhutun yleiskielen tekstejä säilytetään Lauseopin arkistossa. Siellä ovat tallessa myös kirjoitetun yleiskielen näytteiden alkuperäistekstit lehtileikkeinä tai valokopioina.
1. MURREAINEISTO
Arkiston murreaineisto edustaa kaikkia nykyisen Suomen alueella puhuttuja suomen kielen murteita sekä lisäksi niitä murteita, joita puhuttiin Neuvostoliitolle viime sotien yhteydessä luovutetuilla alueilla ennen alueiden luovuttamista.
Murreotos on pyritty valitsemaan niin, että siitä tulisi murteistoittain mahdollisimman edustava. Valintatiheydeksi on määrätty, että suunnilleen joka neljäs pitäjä kultakin murrealueelta otetaan mukaan (otoskartta seuraavalla sivulla). Silloin, kun työ Lounais-Suomen murteista aloitettiin, oli vielä tavoitteena joka toinen pitäjä; tästä johtuu se, että lopullisessa aineistossa on lounaismurteista ja lounaisista siirtymämurteista keskimäärin joka kolmas pitäjä mukana. Seuraavassa taulukossa on esitetty murrenäytteiden jakauma päämurrealueittain:
Murrealue
|
Pitäjiä
|
Lounaismurteet
|
20
|
Lounaiset siirtymämurteet
|
14
|
Hämäläismurteet
|
25
|
Pohjalaismurteet
|
27
|
Savolaismurteet
|
32
|
Kaakkoismurteet
|
15
|
_______________________________
|
Yhteensä
|
133
|
Yhdestä pitäjänmurteesta on yleensä valittu käsiteltäväksi yksi noin tunnin laajuinen äänite. Pitäjittäisen murreotoksen koko on kuitenkin määritelty ensisijaisesti sanemääränä. Yhden pitäjänaineiston normaalilaajuudeksi on asetettu 6 000 - 8 000 tekstisanaa. Ehdoton minimi on ollut 5 000 sanetta; jollei tämä määrä ole täyttynyt, on pitäjänaineistoa täydennetty toisella litteraatiolla. Näin on tehty yhdeksän pitäjän osalta. Sana aineistoyksikkö tarkoittaa murreaineistosta puhuttaessa koko pitäjänaineistoa, joka siis viimeksi mainituissa tapauksissa koostuu kahdesta eri äänitteestä.
Ensisijainen kriteeri murrenäytettä valittaessa on ollut se, että näyte on vanhakantaista, aitoa ja hyvää murretta eli että se edustaa mahdollisimman hyvin asianomaisen pitäjän vanhaa murrepohjaa. Hyvää murretta sisältävä äänite on kuitenkin joskus jouduttu hylkäämään heikon teknisen laadun takia.
Otoksen pohjana olevissa äänitteissä on vallitsevana puhetilanteena haastattelu, joka usein väljentyy kerronnaksi. Aineistoa valittaessa on pyritty siihen, että otokseen tuleva puheaines ei koostuisi vain kysymyksistä ja vastauksista vaan että myös murteenpuhujan vapaa puhunta ja samalla kerronta pääsisivät oikeuksiinsa. Valinnan perusteena ovat siis olleet myös haastateltavan kertojanominaisuudet; tähän sisältyy jonkinasteinen vaatimus puhunnan sujuvuudesta ja takeltelemattomuudesta. Mahdollisuuksien mukaan on koetettu saada myös sellaisia näytteitä, joissa kaksi murteenpuhujaa keskustelee keskenään; tällaisia näytteitä on arkiston otoksessa yhteensä 11.
Äänitteen sisältöön eli puheenaiheisiin on voitu kiinnittää huomiota vain vähän. On kuitenkin mahdollisuuksien mukaan pyritty siihen, että aiheet olisivat monipuolisia ja että näytteet edustaisivat sanastollisesti ja syntaktisesti rikasta kieltä.
Pyrkimys vanhakantaiseen murteeseen on aineistossa toteutunut hyvin ainakin murteentaitajien iän perusteella arvioituna. Arkiston murteenpuhujien syntymävuodet jakaantuvat eri vuosikymmenille seuraavasti:
Syntymäaika
|
Henkilöitä
|
Pros.
|
1860-luku
|
3
|
2
|
1870-luku
|
35
|
23
|
1880-luku
|
79
|
52
|
1890-luku
|
33
|
21
|
1900-luku
|
2
|
2
|
_____________________________
|
Yhteensä
|
153
|
100
|
Suunnilleen puolet murteenpuhujista on siis syntynyt 1880-luvulla. Kun lasketaan mukaan myös tätä aiemmin syntyneet, havaitaan, että viimeistään 1880-luvulla on puhujista syntynyt runsaat kolme neljäsosaa (76 %) ja viimeistään 1890-luvulla jo 98 prosenttia. Puhujista 76 on miehiä ja 77 naisia.
Murrenäytteiden äänitteet jakautuvat eri vuosikymmenille seuraavasti:
Äänitysaika
|
Äänitteitä
|
1950-luku
|
9
|
1960-luku
|
121
|
1970-luku
|
12
|
__________________________________
|
|
142
|
Noin 85 prosenttia äänitteistä on siis valmistunut 1960-luvulla. Puhujien syntymäaikoja ja äänitteiden valmistumisaikoja vertailemalla havaitaan, että murteenpuhujat ovat varsin iäkkäitä, keskimäärin 80-vuotiaita.
2. YLEISKIELEN AINEISTO
Arkiston yleiskielinen aineisto on pyritty valitsemaan niin, että se edustaisi mahdollisimman monipuolisesti kirja- ja yleiskielen käytön eri lajeja. Tämä aineisto on kuitenkin kooltaan melko suppea, mistä sen edustavuus tietenkin kärsii. Otoksesta on rajattu kokonaan pois arkinen yleispuhekieli; mukana on vain lähempänä kirjakieltä olevia puhutun yleiskielen tekstilajeja. Kirjoitetun kielen alueelta ovat poissa sellaiset tekstilajit, jotka ovat kaukana keskimääräisestä kirjakielestä ja normaaliproosasta: esimerkiksi taideproosasta ja pakinoista on valittu mukaan vain sellaisia tekstejä, jotka ovat syntaktisesti ja stilistisesti suhteellisen lähellä normaaliproosaa; lyriikka on jätetty kokonaan pois.
Otoksessa on eri tekstilajeja edustavia aineistoyksikköjä yhteensä 40, ja ne jakautuvat kuuteen lohkoon seuraavasti:
1. Hallinnon kieli ja virkakieli
|
(3 aineistoyksikköä)
|
2. Sanomalehtien kieli
|
(14 aineistoyksikköä)
|
3. Aikakauslehtien kieli
|
(7 aineistoyksikköä)
|
4. Tietokirjallisuuden kieli
|
(9 aineistoyksikköä)
|
5. Radion, television sekä puhetilaisuuksien kieli
|
(5 aineistoyksikköä)
|
6. Kaunokirjallisuuden kieli
|
(2 aineistoyksikköä)
|
Yleiskielisiä tekstilajinäytteitä valittaessa on pyritty siihen, että ne olisivat mahdollisimman vertailukelpoisia murreaineiston aineistoyksikköjen kanssa. Siten yleiskieltä edustavan aineistoyksikön laajuus on määritetty samoin kuin yhden pitäjän murrenäytteen: laajuus on yleensä 6 000 - 8 000 tekstisanaa; minimikoko on 5 000 sanetta.