Språkbanken CLARIN        CLARIN K-Centre        Uppsala universitet ENGLISH
 
                         

Resurs- och kunskapscentra

– Swedish in a Multilingual Setting, SMS

K-centrumet Svenska i ett flerspråkigt sammanhang (CLARIN-SMS) inriktar sig på språkteknologi för svensk och flerspråkig text (såsom parallella korpusar). Dessutom erbjuder CLARIN-SMS expertis inom språkteknologi för svenskt teckenspråk (STS).

CLARIN-SMS riktar sig främst till forskare inom humaniora och samhällsvetenskap med behov av analys, annotering eller utvinning av information när det gäller svensk eller flerspråkig text, och även mot forskare med behov av verktyg och korpusar för svenskt teckenspråk.

CLARIN-SMS gör resurser i form av korpusar och verktyg för språklig bearbetning tillgängliga för forskning inom humaniora och samhällsvetenskap. Resurserna inkluderar enspråkiga (främst svenska) och flerspråkiga korpusar som spänner över flera domäner, samt verktyg för grundläggande bearbetning av text, inklusive tokenisering, morfologisk analys, ordklasstaggning, syntaktisk parsning och namnigenkänning.

Huvudsakliga expertisområden

CLARIN-SMS erbjuder specialiserad expertis:

  • För forskare som är intresserade av att utforska svenska texter, genom att erbjuda stöd för att skapa och bearbeta svenska texter med en mängd olika datorbaserade metoder, såsom lingvistisk annotering på olika nivåer eller sentimentanalys.
  • För forskare som är intresserade av jämförande analyser genom att erbjuda stöd för att skapa och bearbeta parallella och jämförbara korpusar, inklusive länkning och maskinöversättning, samt konsekvent annotering över språken inom ramen för Universal Dependencies, vilket möjliggör jämförande analyser mellan språken.
  • För forskare som är intresserade av utbildning och tillgänglighet till innehåll, genom att erbjuda stöd för beräkning och utvärdering av mått på textkomplexitet.
  • För forskare och användare av svenskt teckenspråk genom att erbjuda stöd för att skapa lexikon och korpusar för svenskt teckenspråk, samt annotering av svenskt teckenspråk (inklusive glossning, ordklasstagging och syntaktisk struktur).
Stödet tillhandahålls av flera samarbetspartner inom det distribuerade kunskapscentret CLARIN-SMS:
  • Linköpings universitet, Institutionen för datavetenskap
  • Stockholms universitet, Institutionen för lingvistik
  • Uppsala universitet, Institutionen för lingvistik och filologi

Även om varje nod inom CLARIN-SMS fungerar som en separat enhet och marknadsför sina tjänster och resurser på olika sätt – inklusive webbsidor som presenterar projekt och resurser och presentationer vid CLARIN-relaterade evenemang – utgör kunskapscentret en gemensam resurs. CLARIN-SMS är en dynamisk gemenskap och, i enlighet med CLARIN:s övergripande mål att skapa och främja språkliga resurser, har en mängd aktiviteter genomförts vid de olika noderna, inklusive utveckling av verktyg och resurser för språkanalys, både för flerspråkiga sammanhang och enbart för svenska.

Ett aktivt forskningscenter

Ett antal aktiviteter är särskilt inriktade på att främja användningen av språkteknologi inom humaniora och samhällsvetenskap.

Ett exempel är ett projekt som analyserar utvecklingen av begreppet 'handikappad' ur ett svenskt parlamentariskt perspektiv. Inom detta projekt hjälper vi forskare att bearbeta och analysera den svenska regeringens offentliga utredningar från tidigt 1900-tal fram till idag, med hjälp av olika SweClarin-resurser och språkteknologiska verktyg, såsom SPARV-pipelinen.

Ett annat exempel är analysen av protokoll från Sveriges Riksbank, där vi jämför protokoll från perioden då de var anonyma med protokoll från perioden då de inte längre var det. Ett av målen med studien är att undersöka om det är möjligt att identifiera enskilda talare i protokoll från den anonyma perioden. Ett annat mål är att ge Riksbanken information om potentiella skillnader och likheter i argumentation mellan de två typerna av protokoll. För detta ändamål använder vi olika SweClarin-resurser, såsom sentimentlexikonet sentaldo-v02 och SPARV-pipelinen för parsning, i kombination med analysmodeller för ämnesklassificering och sentimentanalys.

Ytterligare ett exempel är ett projekt i samarbete med forskare inom förvaltning, där vi analyserar svenska företags efterlevnad och införande av informationssäkerhetsstandarden ISO 27001. Syftet med projektet är att undersöka den kommunikativa konstitutionen av förebyggande innovation inom organisationer. För detta projekt har vi hjälpt till att skapa en korpus och analysera den ur flera tvärvetenskapliga perspektiv, med hjälp av SweClarin-verktyg och resurser, såsom sentimentlexikonet sentaldo-v02 och SPARV-pipelinen för parsning, samt andra språkteknologiska verktyg, inklusive ordmoln.

Verktyg och resurser

Medverkande Språkbanken-CLARIN-medlemmar

CLARIN-SMS är ett så kallat distribuerat K-centrum med flera deltagare:

Kontakt (helpdesk)

Arne Jönsson, arne.jonsson@liu.se

Publikationer

  • Lars Ahrenberg (2015). Converting an English–Swedish Parallel Treebank to Universal Dependencies. I Proceedings of the Third International Conference on Dependency Linguistics (DepLing 2.015), Association for Computational Linguistics, pages 10–19. ACL Anthology W15-2103.

  • Lars Ahrenberg, Henrik Danielsson, Staffan Bengtsson, Hampus Arvå, Lotta Holme och Arne Jönsson (2020). Studying Disability Related Terms with Swe-Clarin Resources. I Selected Papers from the CLARIN Annual Conference 2019, DOI: https://doi.org/10.3384/ecp2020172.

  • Lars Ahrenberg, Daniel Holmer, Stefan Holmlid och Arne Jönsson (2023). Analysing changes in official use of the design concept using SweCLARIN resources. I Selected papers from the CLARIN Annual Conference 2022. DOI: https://doi.org/10.3384/ecp198.

  • Bodil Axelsson, Daniel Holmer, Lars Ahrenberg och Arne Jönsson (2021). Studying Emerging New Contexts for Museum Digitisations on Pinterest. I Selected Papers from the CLARIN Annual Conference 2020. DOI: https://doi.org/10.3384/ecp180, 2021.

  • Daniel Holmer, Lars Ahrenberg, Julius Monsen, Arne Jönsson, Mikael Apel och Marianna Blix Grimaldi (2023). Who said what? Speaker Identification from Anonymous Minutes of Meetings. I Proceedings of the 24 Nordic Conference on Computational Linguistics (NoDaLiDa).

  • Oskar Jerdhaf, Marina Santini, Peter Lundberg, Anette Karlsson och Arne Jönsson (2021). Focused Terminology Extraction for CPSs: The Case of "Implant Terms" in Electronic Medical Records. I Proceedings of the IEEE International Conference on Communications Workshop on Communication, Computing, and Networking in Cyber-Physical Systems (IEEE CCN-CPS 2021), Montreal, Canada.

  • Arne Jönsson, Subhomoy Bandyopadhyay, Svjetlana Pantic Dragisic och Andrea Fried (2024). Analyses of information security standards on data crawled from company web sites using SweClarin resources. I Selected papers from the 2023 CLARIN Annual Conference. DOI: https://doi.org/10.3384/ecp210.

  • Marco Kuhlmann och Stephan Oepen (2016). Towards a Catalogue of Linguistic Graph Banks. I Computational Linguistics, 42, 4, 819–827. ISSN 0891-2017, E-ISSN 1530-9312.

  • Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty och Daniel Zeman (2016). Universal Dependencies v1: A Multilingual Treebank Collection. I Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016).

  • Agata Savary, Sara Stymne, Verginica Barbu Mititelu, Nathan Schneider, Carlos Ramisch och Joakim Nivre (2023). PARSEME Meets Universal Dependencies: Getting on the Same Page in Representing Multiword Expressions. I Northern European Journal of Language Technology, 9.

  • Aaron Smith, Bernd Bohnet, Miryam de Lhoneux, Joakim Nivre, och Sara Stymne (2018). 82 treebanks, 34 models: Universal Dependency Parsing with Multi-Treebank Models. I Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 113–123.

  • Leonie Weissweiler, Nina Böbel, Kirian Guiller, Santiago Herrera, Wesley Scivetti, Arthur Lorenzi, Nurit Melnik, Archna Bhatia, Hinrich Schütze, Lori Levin, Amir Zeldes, Joakim Nivre, William Croft and Nathan Schneider (2024). UCxn: Typologically Informed Annotation of Constructions Atop Universal Dependencies. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 16919–16932, Torino, Italia. ELRA and ICCL.

  • Robert Östling (2018). Part of Speech Tagging: Shallow or Deep Learning? I Northern European Journal of Language Technology, Volume 5, Article 1.

  • Robert Östling, Carl Börstell, Moa Gärdenfors och Mats Wirén (2017). Universal Dependencies for Swedish Sign Language. I Proceedings of the 21st Nordic Conference on Computational Linguistics, pages 303–308. Linköping.

  • Robert Östling, Katarina Gillholm, Muratan Kurfalı, Marie Mattson och Mats Wirén (2024). Evaluation of really good grammatical error correction. I Calzolari, N., Kan, M.-Y., Hoste, V., Lenci, A., Sakti, S., and Xue, N., editors, Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 6582--6593, Torino, Italia. ELRA and ICCL.

  • Robert Östling och Muratan Kurfalı (2023). Language Embeddings Sometimes Contain Typological Generalizations. I Computational Linguistics, 49(4):1003--1051.

  • Robert Östling och Jörg Tiedemann. (2016). Efficient word alignment with Markov Chain Monte Carlo. I Prague Bulletin of Mathematical Linguistics, 106:125--146.
     Medintressenter Medlemmar Kontakta oss     
CLARIN ERIC
Språkbanken
Vetenskapsrådet
Språkbanken Text, GU
Språkbanken Tal, KTH
Språkbanken Sam, Isof
Datorlingvistikgruppen, UU
GRIDH, GU
Humanistlaboratoriet, LU
Humlab, UmU
Institutionen för lingvistik, SU
Kungliga biblioteket
Institutionen för datavetenskap, LiU
Riksarkivet
info@sweclarin.se