Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Dregur til tíðinda Hannes Pétursson Skoðun Þegar strákar og menn hætta að svara Steindór Þórarinsson Skoðun Spænski draumurinn – Ungt fólk í leit af sól, rólegheitum og eigið fé Hans Birgisson Skoðun Kjósa Íslendingar með fótunum? Hjálmar Vilhjálmsson Skoðun Gervigreind í ráðningum - stuðningur eða staðgengill? Helga Jóhanna Oddsdóttir Skoðun Þú þarft ekki samninginn til að sjá það sem mestu skiptir Daði Freyr Ólafsson Skoðun Það er mikið talað um ESB. En hver á Ísland í raun? Valerio Gargiulo Skoðun Vex Ísland í eina átt? Hjálmar Bogi Hafliðason Skoðun Þegar Alþingi virkar fyrir Ísland Guðmundur Ari Sigurjónsson Skoðun Fíllinn í stofunni Eldur Smári Kristinsson Skoðun Skoðun Skoðun Millistjórnendur standa frammi fyrir stærstu breytingu vinnumarkaðarins Gísli Rafn Ólafsson skrifar Skoðun Framtíð menntastofnana á Akureyri varðar okkur öll Berglind Ósk Guðmundsdóttir skrifar Skoðun Vex Ísland í eina átt? Hjálmar Bogi Hafliðason skrifar Skoðun Dregur til tíðinda Hannes Pétursson skrifar Skoðun Þegar strákar og menn hætta að svara Steindór Þórarinsson skrifar Skoðun Mikilvægir áfangar í orkumálum Vestfjarða Arna Lára Jónsdóttir skrifar Skoðun Spænski draumurinn – Ungt fólk í leit af sól, rólegheitum og eigið fé Hans Birgisson skrifar Skoðun Gervigreind í ráðningum - stuðningur eða staðgengill? Helga Jóhanna Oddsdóttir skrifar Skoðun Opinber gögn eru þjóðarauðlind – ríkið verður að mynda eigið mállíkan Haukur Arnþórsson skrifar Skoðun Hraðtíska kallar á aðgerðir Norðurlanda Bryndís Haraldsdóttir skrifar Skoðun Fíllinn í stofunni Eldur Smári Kristinsson skrifar Skoðun Framtíð heilbrigðisþjónustu á Akureyri er í sjónmáli Sindri S. Kristjánsson skrifar Skoðun Engar formlegar aðlögunarviðræður við ESB mögulegar án umsóknar Íslands um aðild Júlíus Valsson skrifar Skoðun Þú þarft ekki samninginn til að sjá það sem mestu skiptir Daði Freyr Ólafsson skrifar Skoðun Þegar orðaslagurinn stríðir við þjóðarsálina Sigurður Sigurðsson skrifar Skoðun Gervigreind er ekki sjálfkrafa góð eða slæm. Hún er alin upp Helgi S. Karlsson skrifar Skoðun Það er mikið talað um ESB. En hver á Ísland í raun? Valerio Gargiulo skrifar Skoðun Kjósa Íslendingar með fótunum? Hjálmar Vilhjálmsson skrifar Skoðun Þegar Alþingi virkar fyrir Ísland Guðmundur Ari Sigurjónsson skrifar Skoðun Lítil þjóð, stór tækifæri Þórður Birgisson skrifar Skoðun Hvalveiðar – þjóðarskömm sem verður að heyra sögunni til Helgi Felixson skrifar Skoðun Þjóðargersemi Ebba Margrét Magnúsdóttir skrifar Skoðun Sæti við borðið – eða sæti á ganginum? Þorvaldur Ingi Jónsson skrifar Skoðun Ég vil ráða mínu sumarfríi Magnea Gná Jóhannsdóttir skrifar Skoðun Mannmiðjuvillan og dýradráp Íslendinga Rósa Líf Darradóttir skrifar Skoðun Stóra Stjórnarskrármálið Guðmunda G. Guðmundsdóttir skrifar Skoðun Hverjir fá sætin við borðið? Diljá Mist Einarsdóttir skrifar Skoðun Já til að SJÁ Berglind Guðmundsdóttir skrifar Skoðun Fórnarlambsnaglinn Sigurður Árni Reynisson skrifar Skoðun Þegar jafnrétti verður blóraböggull Inga Valgerður Henriksen Bergdal skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Millistjórnendur standa frammi fyrir stærstu breytingu vinnumarkaðarins Gísli Rafn Ólafsson skrifar
Skoðun Spænski draumurinn – Ungt fólk í leit af sól, rólegheitum og eigið fé Hans Birgisson skrifar
Skoðun Opinber gögn eru þjóðarauðlind – ríkið verður að mynda eigið mállíkan Haukur Arnþórsson skrifar
Skoðun Engar formlegar aðlögunarviðræður við ESB mögulegar án umsóknar Íslands um aðild Júlíus Valsson skrifar