Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hverjir unnu þorskastríðin? Halldór Jörgen Olesen Skoðun Sá maður sem ég sá á skjánum var ekki ég Gísli Hrafn Gunnarsson Skoðun Hvaða löggjöf verður áfram í höndum Alþingis ef til aðildar að ESB kemur? Þorvaldur Ingi Jónsson Skoðun Við erum að selja loftslagsmálin vitlaust Haukur Logi Jóhannsson Skoðun Excel-heilafúinn í Ráðhúsinu: Þegar tónlistarnám varð munaðarvara Jónas Sen Skoðun Dánaraðstoð snýst ekki aðeins um lækna heldur líka um sjúklinga Ingrid Kuhlman Skoðun Ég vel hattana sjálf Berglind Guðmundsdóttir Skoðun Andleg heilsa ungs fólks Héðinn Unnsteinsson Skoðun Þjóðargrafreitur sem ekki varð Sigurður Helgi Pálmason Skoðun Að leita langt yfir skammt Ingibjörg Isaksen Skoðun Skoðun Skoðun Eftirlit Alþingismanna með ráðuneytunum Pétur Halldórsson skrifar Skoðun Hvaða löggjöf verður áfram í höndum Alþingis ef til aðildar að ESB kemur? Þorvaldur Ingi Jónsson skrifar Skoðun Kári beislaður við Vaðöldu Sigurður Friðleifsson skrifar Skoðun Það vantar ekki enn eitt átakið – það vantar aðgerðir Birgir Hrafn Birgisson skrifar Skoðun Að leita langt yfir skammt Ingibjörg Isaksen skrifar Skoðun Framkvæmd skólastefnu fær falleinkunn Gunnar Salvarsson skrifar Skoðun Slönguspilið og svikamyllan Teitur Atlason skrifar Skoðun Þetta er algjört möst í fríið Hildur Vattnes Kristjánsdóttir skrifar Skoðun Ég vel hattana sjálf Berglind Guðmundsdóttir skrifar Skoðun Við erum að selja loftslagsmálin vitlaust Haukur Logi Jóhannsson skrifar Skoðun Hin meinta lýðræðisveisla Guðmunda G. Guðmundsdóttir skrifar Skoðun Excel-heilafúinn í Ráðhúsinu: Þegar tónlistarnám varð munaðarvara Jónas Sen skrifar Skoðun Andleg heilsa ungs fólks Héðinn Unnsteinsson skrifar Skoðun Sá maður sem ég sá á skjánum var ekki ég Gísli Hrafn Gunnarsson skrifar Skoðun Orðið í strætinu: Hræðsla og yfirlæti orðin helstu vopn já-liða – hroki bætist við þegar rökin vantar Gunnar Ármannsson skrifar Skoðun Um fáránleika þess að raska grafarró þjóðskáldsins Sævar Þór Jónsson skrifar Skoðun Leggjum niður framtíðina Kristinn Jón Ólafsson skrifar Skoðun Þegar umræðan og staðreyndirnar fara ekki saman Erna Bjarnadóttir skrifar Skoðun Gervigreindin lýgur að þér – og það er nákvæmlega það sem þú baðst um Björgmundur Örn Guðmundsson skrifar Skoðun Hverjir unnu þorskastríðin? Halldór Jörgen Olesen skrifar Skoðun Dánaraðstoð snýst ekki aðeins um lækna heldur líka um sjúklinga Ingrid Kuhlman skrifar Skoðun Fyrirtæki sem læra hægt munu deyja hægt Gísli Rafn Ólafsson skrifar Skoðun Þjóðargrafreitur sem ekki varð Sigurður Helgi Pálmason skrifar Skoðun Skutlið að sliga margar fjölskyldur Kolbrún Baldursdóttir skrifar Skoðun Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon skrifar Skoðun Háskólar falla á prófi í samkeppnisrétti Ólafur Stephensen skrifar Skoðun Jarðhiti sem samkeppnisforskot Helga Kristín Jóhannsdóttir skrifar Skoðun Ef fyrirtæki nota AI til að fækka fólki, eru þau að hugsa of smátt Vaka Ágústsdóttir skrifar Skoðun Hugleiðingar flugmanns Sara Hlín Sigurðardóttir skrifar Skoðun Mygluna burt úr Laugalækjarskóla Stefán Steingrímur Bergsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Hvaða löggjöf verður áfram í höndum Alþingis ef til aðildar að ESB kemur? Þorvaldur Ingi Jónsson Skoðun
Skoðun Hvaða löggjöf verður áfram í höndum Alþingis ef til aðildar að ESB kemur? Þorvaldur Ingi Jónsson skrifar
Skoðun Orðið í strætinu: Hræðsla og yfirlæti orðin helstu vopn já-liða – hroki bætist við þegar rökin vantar Gunnar Ármannsson skrifar
Skoðun Gervigreindin lýgur að þér – og það er nákvæmlega það sem þú baðst um Björgmundur Örn Guðmundsson skrifar
Skoðun Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon skrifar
Hvaða löggjöf verður áfram í höndum Alþingis ef til aðildar að ESB kemur? Þorvaldur Ingi Jónsson Skoðun