Lauseopin arkiston syntyhistoria *
TAUSTA

Suunnitelma suomen lauseopin tutkimusta palvelevan arkiston aikaansaamisesta esitettiin ensi kerran Osmo Ikolan ja Matti Liimolan laatimassa, 12.10-1965 päivätyssä muistiossa (julkaistu: Sananjalka 8, 1966, s. 227-230). Suunnitellut tutkimustavoitteet yksilöitiin tarkemmin valtion humanistiselle toimikunnalle 30.3.1967 toimitetusaa tutkimussopimustarjouksessa. Sen mukaan lauseopillisen aineiston keruun ja arkistoinnin tavoitteena oli luoda kaikkia suomen kieien murrealueita edustava laaja kansankielen lauseopin arkisto, joka on siten suunniteltu ja järjestetty, että sitä voidaan helposti käyttää mahdollisiminan monenlaisten lauseopin kysymysten tutkimiseen. Työn lopulliseksi päämääräksi asetettiin deskriptiivisen suomen kansankielen lauseopin aikaansaaminen.

TUTKIMUSSOPIMUS

Vuonna 1967 tehtiin valtion kansaa tutkimussopimus, jonka aiheena oil suomen kansankielen muoto- ja lauseopillisen aineiston keruu ja arkistointi. Sopimus tehtiin ensin ajaksi 1.6.1967 - 31.5.1971, nutta sitä jatkettiin sitten vuoden 1971 loppuun. Valtiota edusti sopimuksessa valtion humanistinen toimikunta, ja toisena sopimuspuolena oli tutkijaryhmä, johon kuuluivat professorit Osmo Ikola, Terho Itkonen, Heikki Leskinen ja Pertti Virtaranta. Lauseoppia koskevaa työtä tehtiin alusta lähtien Turussa, kokonaan erillään muoto-oppia koskevasta työsta. ATK-palvelut saatiin Turun yliopiston sovelletun matematiikan laitokselta. Lauseopillisen aineiston keruu- ja arkistointityötä johti prof. Osmo Ikola, joka on ollut työn johdossa koko ajan, aina vuoden 1984 loppuun saakka, jolloin Lauseopin arkiston varsinainen perustamis- ja kehittämistyö katsottiin loppuun saatetuksi.

Työn alkuvaiheissa, syksyllä 1967 prof. Ikola teki opintomatkan muutamiin sellaisiin ulkomaisiin yliopistoihin ja laitoksiin, joissa tekeillä olevista töistä näytti olevan saatavissa oppia. Matkan kohteet olivat: (1) Lontoo, University College, "Survey of English Usage"; (2) Leeds in yliopisto, Institute of Dialect and Folk Life Studies; (3) Liège, International Organisation for Ancient Languages Analysis by Computer; (4) Saarbrücken, Germanistisches Institut der Universität des Saarlandes; (5) Freiburg i. Br., Englisches Seminar der Universität; (6) Münchenin yliopisto, germanistiikan laitos; (7) Göteborgin yliopisto, tietokonelingvistiikan asiantuntijat; (8) Tukholna, KVALgruppen. Vaikkei mitään suoranaiseksi esikuvaksi soveltuvia hankkeita ollutkaan olemassa, niin matka hyödytti monin tavoin Turussa aloitettua työtä.

SUOMEN AKATEMIAN TUTKIMUSRAHAT 1972-76

Tutkimussopimuksen päätyttyä rahoitti valtion humanistinen toimikunta työtä 1.1.1972-29.2.1976 myöntämällä prof. Osmo Ikolalle aputyövoiman palkkaamista ym. kuluja varten tutkimusrahaa vuosittaisten anomusten perusteella. ATK-palvelut saatiin aluksi edelleen Turun yliopiston sovelletun matematiikan laitokselta seka v. 1974 tapahtuneesta yliopiston valtiollistamisesta lähtien yliopiston laskentakeskukselta.

TUTKIMUSKESKUKSEN JA YLIOPISTON YHTEISHANKE 1976-84

Kun Kotimaisten kielten tutkimuskeskus aloitti toimintansa 1.3.1976, niin Lauseopin arkiston työ siirtyi pääosin sen rahoitettavaksi. Turun yliopisto antoi edelleen käytettäksi tilat ja ATK-palvelut. Tutkimuskeskus on kuitenkin ajoittain rahoittanut myös ATK-suunnittelua siltä osin, kuin sitä ei ole voitu sisällyttää yliopiston palveluksessa oievan, humanististen tutkimushankkeiden ATK-asiantuntijana toimivan matemaatikon / amanuenssin virkatehtaviin. Tutkimuskeskuksen ja yliopiston välinen yhteistyötä koskeva sopimus allekirjoitettiin 27.4.1978. Sopimus oli voimassa vuoden 1982 loppuun, mutta jatkosopimuksilla yhteishanketta jatkettiin ensin elokuun loppuun 1983 ja sitten vuoden 1984 loppuun. Ensimmäisen sopimuksen 1. §:ssa on työn tavoitteet määritelty seuraavasti: "Yliopisto ja Tutkimuskeskus luovat jäljempänä sovituin velvoittein ATK-muotoisen lauseopin arkiston, jonka tehtävänä on palvella lauseopin tutkimusta ja tältä osin tukea yliopisto-opetusta. Tämän sopimuksen tarkoittamaan arkistoon sisällytetään no in tunnin pituinen murrenäyte kaikkiaan 120 kunnasta siten, että ne mahdollisimiman hyvin edustavat kaikkia suomen murteita, sekä vertailuaineksena 15 vastaavan pituista kirjoitetun ja puhutun yieiskielen näytettä."

Työtä aloitettaessa oli asetettu laajempi tavoite: tunnin äänite joka toisesta suomenkielisestä pitäjästä eli yhteensä n. 250 murreainesyksikköä. Kun työ käytännöllisistä syistä oli aloitettu Lounais-Suomen murteista, niin tämän alueen murreaineistoja oli yhteistyösopimusta tehtäessä 30 pitkälle käsiteltyinä useammasta kunnasta kuin sopimus edellytti. Jotta jo tehty työ ei menisi tältä osin hukkaan, hyväksyttiin sittemmin ohjelmaan lisäksi nuo "ylimääräiset" pitäjänaineistot. Tästä johtuu, että arkistossa nyt on sovitun pituiset murreaineistot yhteensä 132 kunnasta.

Työn edistyessä osoittautui myös, että alkuperäisessä sopimuksessa mainittu kirjoitetun ja puhutun yieiskielen näytteiden määrä, yhteensä 15, oli riittämätön yieiskielen eri lajeja edustavaksi vertailuaineistoksi. Jatkosopimuksessa, joka allekirjoitettiin 17.3.1983, on tästä syystä seuraava täydennys: "Lisäksi arkistoa mahdollisuuksien aukaan täydennetään enintään 15 aineistoyksiköllä, jotka edustavat yieiskielen eri lohkoja tyylilajeja ja ovat laajuudeltaan suunnilleen entisten aineistoyksiköiden kokoisia (à 6000 - 8000 tekstisanaa)." Yieiskielen aineistoyksiköiden kokonaismäärä on näin ollen 30.

Alkuperaisen sopimuksen 4. § sisältää tärkeät säännökset arkiston käytöstä ja hoitamisesta:

"Arkisto on työn kestäessa vapaasti tutkijain ja yliopisto-opetuksen käytettävissä ja jaa sopimuksen päätyttyäkin tutkijain vapaasti käytettäksi. Tutkimuskeskuksella on käyttö- ja kopiointioikeus arkiston aineksiin. Kun yhteistyösopimuksen voimassaolo päättyy, arkisto jää Yliopistoon ja sen hoitamisesta sovitaan erikseen Yliopiston ja Tutkimuskeskuksen kesken."

Saman sopimuksen 5. § sisältää mm. seuraavan: "Arkiston tieteellisenä johtajana toimii arkiston perustaja professori Osmo Ikola. Tieteellinen johtaja päättää ja vastaa arkistotyön tieteellisestä sisällöstä ja toteutuksessa käytetyistä menetelmistä ja valmistelee muutoinkin arkistoa koskevat asiat."

ATK JA KONTEKSTISANAKIRJAT

Yhteistyösopimuksen päättyessä 31.12.1984 on edellä mainitut tavoitteet melkein kauttaaltaan saavutettu. Ne kohdat, joissa tavoitteista on vähäisen jääty jälkeen, saadaan sopimuskauden päätyttyä täydennetyksi. Arkiston ATK-järjestelmän luominen oli aloitettu Turun yliopiston IBM 1130 -tietokoneella. V. 1975 kone korvattiin uudella, tyyppiä DEC-System 10. Muutosvaihe aiheutti sen, että jo valmiiksi saatu morfoloqinen tulostusjärjestelmä kävi käyttökelvottomaksi ja se jouduttiin uusimaan. Tämä hidasti myös muuta ATK-järjestelmän kehittämistä pitkälti yli vuoden. Samanlainen mutta paljon vähäisempi viivytys tapahtui v. 1981, jolloin DEC 10 vaihdettiin DEC 20:een. Arkisto jäi tuolloin ilman ATK-palveluita noin neljäksi kuukaudeksi.

Yliopiston tietokoneen kirjoittimen hitauden vuoksi tuotettiin kontekstisanakirjat aluksi Tanskassa. NEUCC:ssa (Northern Europe Univeraity Computing Centre). Turun yliopiston laskentakeskuksen saatua uusia laitteita työ siirrettiin sinne. Kontekstisanakirjat olivat nähtäviä sidottuja kirjoja: kukin yhtä pitäjänaineistoa edustava kirja sisäisi 400-500 suurikokoista sivua. Myöhemmin siirryttiin tuottamaan kontekstisanakirjoja mikrokortteina, jolloin yhtä pitäjänaineistoa tai yleiskielen aineistoyksikköä edustava sanakirja mahtuu kolmeen korttiin. Ensimmäiset mikrokorttimuotoiset kontekstisanakirjat saatiin tuotetuksi 1980. Arkiston valmistuessa ovat mikrokorttimuodossa olemassa nekin sanakirjat, jotka aiemmin ehdittiin tuottaa kirjoina.

LUOTETTAVUUS

Kaikki arkiston litteraatiot on litteroijan lisäksi toinen henkilö tarkistanut. Reikäkortti- ja magneettinauhatekstejä sekä koodituksia on tarkistettu sekä koneellisesti että manuaalisesti siinä määrin kuin on ollut mahdollista suhteettomasti hidastamatta työtä. Täysin virheettömiksi ei arkiston aineistoja kuitenkaan ole voitu saada. Ensinnäkin inhimilliset erehdykset ovat aina mahdollisia, ja toiseksi koodijärjestelmässä, etenkin sen syntaktisessa osassa, on paljon tulkinnanvaraisia kohtia. Vaikka yhteisten neuvottelujen ja pistokoetarkistusten avulla on pyritty tulkintakohdissa yhtenäisyyteen, ei tähän kuitenkaan ole sataprosenttisesti päästy. Virheiden ja tulkintaerojen määrä on kuitenkin aineiston kokonaismäärään suhteutettuna siksi pieni, ettei se olennaisesti heikennä arkiston luotettavuutta.

*Teksti on ote Lauseopin arkiston oppaasta. Ks. Ikola Osmo (toim.) Lauseopin arkiston opas. Lauseopin arkiston julkaisuja 1. Turku 1985.