Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Bílar eru frábærir, nema ef við þurfum öll að nota þá Birkir Ingibjartsson Skoðun Velmegun einstaklingsins - opinber auðlegð - markmið jafnaðarmanna Hörður Filippusson Skoðun Útborgun í íbúð eða leikskólapláss í Kópavogi? Jóna Þórey Pétursdóttir Skoðun Hver ber ábyrgð á stöðu Hafnarfjarðar? Karólína Helga Símonardóttir Skoðun Fortíðin er ekki aukaatriði, hún er viðvörun Anna Kristín Jensdóttir Skoðun Hildur fækkaði bílastæðum um 3000 Magnús Kjartansson Skoðun Þarf Icelandair að skipta um nafn? Jón Þór Þorvaldsson Skoðun Tækifærin sem liggja í höfn: Stóra innviðamálið sem gleymist í kosningabaráttunni Alexandra Jóhannesdóttir Skoðun Gangbrautarvörður sem vill leysa málin Margrét Rós Sigurjónsdóttir Skoðun Löng valdaseta bara vandamál fyrir suma Dóra Björt Guðjónsdóttir Skoðun Skoðun Skoðun Afþökkum barnaskatt Samfylkingarinnar í Kópavogi Andri Steinn Hilmarsson skrifar Skoðun Leikskóladvöl í Fjarðabyggð er lúxus Ásdís Helga Jóhannsdóttir skrifar Skoðun Týndi hópurinn á húsnæðismarkaði – gullnu árin Ragnar Þór Reynisson skrifar Skoðun Fólkið fyrst í Hafnarfirði Ágúst Bjarni Garðarsson skrifar Skoðun Til fréttastofu RÚV um kynferðisofbeldi og pyntingar Ísraels Ingólfur Gíslason skrifar Skoðun Þessi fortíð lofar ekki góðu Þórir Garðarsson skrifar Skoðun Menning er undirstaða öflugs samfélags á Seltjarnarnesi Karen María Jónsdóttir skrifar Skoðun Viljum við tryggja sjálfstæði fatlaðs fólks? Þuríður Harpa Sigurðardóttir,Rúnar Björn Herrera Þorkelsson skrifar Skoðun Atkvæði er rödd Joanna Marcinkowska skrifar Skoðun Sterkt samfélag byggir á fjölbreyttu atvinnulífi Aðalbjörg Rún Ásgeirsdóttir skrifar Skoðun Breytir tæknin tilveru lesblindra? Samúel Karl Ólason skrifar Skoðun Af hverju ég býð mig fram fyrir Kópavog Svava Halldóra Friðgeirsdóttir skrifar Skoðun Græni tefillinn Sigrún Magnúsdóttir skrifar Skoðun Fyrir hvern er byggt? Trausti Örn Þórðarson skrifar Skoðun Ýtum undir sterkari tengsl í Hafnarfirði Svenný Kristins skrifar Skoðun Gott að eldast á Akureyri Hanna Dóra Markúsdóttir skrifar Skoðun Biðlisti eftir lífinu Rúnar Björn Herrera Þorkelsson skrifar Skoðun Hleypum þeim værukæru í kærkomið frí Bjarni Thor Kristinsson skrifar Skoðun Deilur magnast í Borgarbyggð um vindorkuver Júlíus Valsson skrifar Skoðun Börn úr símum – inn í samfélagið Tamar Klara Lipka Þormarsdóttir skrifar Skoðun Menning er skattstofn, ekki skraut Jón Bjarni Steinsson skrifar Skoðun Framsókn vill meiri virkni og vellíðan - Leikum okkur alla ævi Halldór Bachmann skrifar Skoðun Hundalífið í Kópavogi Sólveig Skaftadóttir skrifar Skoðun Töframáttur skapandi reikningsskila hjá meirihluta Framsóknar- og Sjálfstæðisflokks í Hafnarfirði Árni Rúnar Þorvaldsson skrifar Skoðun Everything you need to know before Saturday Charlotte Ólöf Jónsdóttir Biering skrifar Skoðun Styrkjum íslenskukennslu fyrir börn og ungmenni Eva Rún Helgadóttir skrifar Skoðun Hestar í höfuðborginni Magnea Gná Jóhannsdóttir skrifar Skoðun Okkar sameiginlegu verk Daði Már Kristófersson skrifar Skoðun Hvernig er að eldast í Reykjavík? Sara Björg Sigurðardóttir skrifar Skoðun Ríða, drepa, giftast Arna Sif Ásgeirsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Tækifærin sem liggja í höfn: Stóra innviðamálið sem gleymist í kosningabaráttunni Alexandra Jóhannesdóttir Skoðun
Skoðun Viljum við tryggja sjálfstæði fatlaðs fólks? Þuríður Harpa Sigurðardóttir,Rúnar Björn Herrera Þorkelsson skrifar
Skoðun Töframáttur skapandi reikningsskila hjá meirihluta Framsóknar- og Sjálfstæðisflokks í Hafnarfirði Árni Rúnar Þorvaldsson skrifar
Tækifærin sem liggja í höfn: Stóra innviðamálið sem gleymist í kosningabaráttunni Alexandra Jóhannesdóttir Skoðun