Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Umferðarslys eða umhverfisslys Baldur Sigurðsson Skoðun Mamma fékk fjórar milljónir fyrir að eignast þig í apríl Guðfinna Kristín Björnsdóttir Skoðun Þegar Inga Sæland sendir reikninginn á næsta borð Einar Þorsteinsson Skoðun Þreytta þjóðarsjálfið Starri Reynisson Skoðun Veiðum hval - virðum lög Þorsteinn Sæmundsson Skoðun Nei, veiðigjöld eru ekki að hækka! Hanna Katrín Friðriksson Skoðun Opinber áskorun til prófessorsins Brynjar Karl Sigurðsson Skoðun Síðan hvenær var bannað að hafa gaman? Hópur stjórnarmanna í Uppreisn Skoðun Berjumst gegn fátækt á Íslandi! Eyjólfur Ármannsson Skoðun Vextir eins og í útlöndum? Björn Berg Gunnarsson Skoðun Skoðun Skoðun Frá friði til vígvæðingar: Höfnum nýrri varnar- og öryggisstefnu utanríkisráðherra Steinunn Þóra Árnadóttir,Einar Ólafsson skrifar Skoðun Þungaflutningar og vegakerfið okkar Haraldur Þór Jónsson skrifar Skoðun Stærsta öryggismál barna í dag eru samskipti, mörk og viðbrögð við grun um ofbeldi Arnrún María Magnúsdóttir skrifar Skoðun Stöðvum ólöglegan flutning barna Þorbjörg S. Gunnlaugsdóttir skrifar Skoðun Þegar Inga Sæland sendir reikninginn á næsta borð Einar Þorsteinsson skrifar Skoðun Erlendar rætur: Hornsteinn framfara, ekki ógn Nichole Leigh Mosty skrifar Skoðun Virðingarleysið meiðir Sigurbjörg Ottesen skrifar Skoðun Kjarninn og hismið Magnús Magnússon skrifar Skoðun „Hættu að kenna innflytjendum um að tala ekki íslensku. Við erum ekki vandamálið“ Ian McDonald skrifar Skoðun Brjálæðingar taka völdin Elín Ebba Ásmundsdóttir skrifar Skoðun Ég og Dagur barnsins HRÓPUM á úrlausnir … Hvað með þig? Ólafur Grétar Gunnarsson skrifar Skoðun 16 daga átak gegn kynbundnu ofbeldi Guðbjörg S. Bergsdóttir,Rannveig Þórisdóttir skrifar Skoðun Ætti Sundabraut að koma við í Viðey? Ólafur William Hand skrifar Skoðun Ekki klikka! Því það er enginn eins og Julian Íris Björk Hreinsdóttir skrifar Skoðun Þess vegna er vond hugmynd hjá Reykjavíkurborg að tekjutengja leikskólagjöld Halla Gunnarsdóttir skrifar Skoðun Mamma fékk fjórar milljónir fyrir að eignast þig í apríl Guðfinna Kristín Björnsdóttir skrifar Skoðun 34 milljónir fyrir póstnúmerið Elliði Vignisson skrifar Skoðun Spyrnum við fótum – eflum innlenda fjölmiðla, líka RÚV Kristján Ra. Kristjánsson skrifar Skoðun Staðreyndir um fasteignagjöld í Reykjanesbæ Guðný Birna Guðmundsdóttir,Sverrir Bergmann Magnússon,Sigurrós Antonsdóttir,Halldóra Fríða Þorvaldsdóttir,Bjarni Páll Tryggvason,Díana Hilmarsdóttir,Helga María Finnbjörnsdóttir skrifar Skoðun Þegar rykið sest: Verndartollar ESB og áhrifin á EES Hallgrímur Oddsson skrifar Skoðun Stormur í vatnsglasi eða kaldhæðni örlaganna? Arnar Sigurðsson skrifar Skoðun Síðan hvenær var bannað að hafa gaman? Hópur stjórnarmanna í Uppreisn skrifar Skoðun Ísland slítur sig frá þriggja áratuga norrænu menntasamstarfi Hópur fyrrverandi UWC-nema skrifar Skoðun Frá skjá til skaða - ráð til foreldra um stafrænt ofbeldi Stella Samúelsdóttir skrifar Skoðun Barnaskattur Vilhjálms Árnasonar Þórður Snær Júlíusson skrifar Skoðun Hertar og skýrari reglur í hælisleitendamálum Sigurður Helgi Pálmason skrifar Skoðun Skelin Guðmundur Ingi Þóroddsson skrifar Skoðun Ójöfn atkvæði eða heimastjórn! Sigurður Hjartarson skrifar Skoðun Sirkus Daða Smart Jens Garðar Helgason skrifar Skoðun Bændur fá ekki orðið Jóhanna María Sigmundsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Frá friði til vígvæðingar: Höfnum nýrri varnar- og öryggisstefnu utanríkisráðherra Steinunn Þóra Árnadóttir,Einar Ólafsson skrifar
Skoðun Stærsta öryggismál barna í dag eru samskipti, mörk og viðbrögð við grun um ofbeldi Arnrún María Magnúsdóttir skrifar
Skoðun „Hættu að kenna innflytjendum um að tala ekki íslensku. Við erum ekki vandamálið“ Ian McDonald skrifar
Skoðun Þess vegna er vond hugmynd hjá Reykjavíkurborg að tekjutengja leikskólagjöld Halla Gunnarsdóttir skrifar
Skoðun Mamma fékk fjórar milljónir fyrir að eignast þig í apríl Guðfinna Kristín Björnsdóttir skrifar
Skoðun Staðreyndir um fasteignagjöld í Reykjanesbæ Guðný Birna Guðmundsdóttir,Sverrir Bergmann Magnússon,Sigurrós Antonsdóttir,Halldóra Fríða Þorvaldsdóttir,Bjarni Páll Tryggvason,Díana Hilmarsdóttir,Helga María Finnbjörnsdóttir skrifar
Skoðun Ísland slítur sig frá þriggja áratuga norrænu menntasamstarfi Hópur fyrrverandi UWC-nema skrifar