logo

Ett digitalare kulturarv

Digisams verksamhet 2011-2015

17 En skalbar och flexibel infrastruktur för digital kulturarvsinformation

Digisams bedömning
Tillgång till en gemensam, skalbar och flexibel infrastruktur för förvaltning av digital kulturarvsinformation är en grundläggande förutsättning för en mer kostnadseffektiv försörjning och förvaltning av information. Utifrån en bas i datakommunikation och lagring kan efter behov en successiv utbyggnad göras med tjänster och verktyg för t.ex. bevarande, kvalitetshöjning och användning. Med SUNET som samarbetspart finns goda möjligheter att etablera en sådan infrastruktur och koppla den till redan befintliga resurser och lösningar.

Utveckling av en långsiktig infrastruktur för lagring och bevarande kräver en investering som kommer att leda till kostnadseffektivitet på uppskattningsvis 3-5 års sikt. Fortsatt mer kortsiktiga insatser på vidareutveckling och kompletteringar av olika befintliga lösningar för lagring och bevarande riskerar att leda till inlåsning och därmed svårigheter att gå över till gemensamma lösningar. Ett långsiktigt samarbete med SUNET skulle ge institutionerna styrka och teknisk grund och kompetens att lösa bevarandefrågor för olika typer av kulturarvsinformation.

Digisams förslag
En skalbar infrastruktur för förvaltning, lagring och bevarande av kulturarvsdata, utvecklas i samverkan med SUNET.

Förutsättningarna utreds för att utveckla landsarkiven eller lämpliga bibliotek och museer till noder för infrastruktur och kompetens med målet att knyta samman den nationella infrastrukturen med regionala infrastrukturer, nätverk och enskilda ABM- institutioner.

Riksarkivet ges i uppdrag att i samråd med Kungl. biblioteket kravspecificera gemensamma lösningar för lagring och bevarande inom ramen för en gemensam infrastruktur.

En skalbar, flexibel infrastruktur, byggd som en gemensam plattform för samverkan utifrån tydligt definierade behov hos användare och institutioner är en förutsättning för en kostnadseffektiv hantering, harmoniseringInom rapporten avses harmonisering vara en beskrivning av data eller information på ett sådant sätt att beskrivande termerna blir jämförbara. och kvalitetshöjning av kulturarvsdata. En sådan infrastruktur ligger också väl i linje med det förslag som Centralmuseernas samarbetsråd utvecklade och år 2010 beskrev i rapporten Förstärkt samarbete i museisektorn. Genom att bygga vidare på redan etablerad samverkan med SUNET finns förutsättningar för att åstadkomma detta. Dessutom är kulturarvsinformation per definition även forskningsinformation. Genom att bygga infrastrukturen för digitalt kulturarv på det svenska universitets- och högskolenätverket öppnar vi också nya möjligheter för en samverkan med infrastrukturerna för forskningsinformation.

Sammantaget skulle ovan beskriven samverkan ge en tryggare och mer stabil informationshantering till en lägre kostnad. Härigenom skapas också en plattform för långsiktig användbarhet och det skulle också öka möjligheterna att utveckla olika tjänster och verktyg avpassade efter både institutionernas, universitetens och medborgarnas mångskiftande behov.

Förslag infrastruktur

Figur 8. Skiss över förslaget till en skalbar och flexibel infrastruktur.

17.1 Digital infrastruktur

Digital infrastruktur för kulturarv är ett begrepp som idag används i bred bemärkelse. Oftast relaterar det till hantering av digitalt kulturarvsmaterial i databaser och system för samlingsförvaltning. Ibland avses datainfrastrukturer som etableras när metadata från flera olika institutioner aggregeras och tillgängliggörs, genom t.ex. K-samsök eller den Nationella ArkivDatabasen (NAD). Datainfrastrukturer bygger oftast på processer som har utvecklats internt på institutionerna eller i samverkan med olika typer av aggregeringstjänsterMed aggregerande tjänst avses i rapporten en webbservice och/eller ett publikt gränssnitt som hämtar sitt innehåll från flera olika informationskällor, som t.ex. NAD, K-samsök eller Europeana.. Eftersom informationen är skapad i olika system, efter olika principer och domänlogiker, krävs samordnade insatser för att harmonisera informationen så att dess potential kan utnyttjas till fullo. Tekniska infrastrukturer som, bl.a. genom uppkopplingskapacitet, stödjer datainfrastrukturer och aktiviteter kopplade till aggregering kallas för e-infrastrukturerVerktyg för elektronisk kommunikation, lagring, bearbetning och visualisering av data samt datorer för storskaliga beräkningar, visualisering, modellering och lagring, nätverk för dataöverföring och avancerat användarstöd som hör ihop med detta..

I Digisams rapport Digital informationshantering och infrastruktur för kulturarvet presenteras resultaten av de workshoppar och modelleringar som genomförts med de institutioner som idag förvaltar aggregeringstjänster. Där presenteras också hur den nuvarande hanteringen av digital kulturarvsinformation ser ut, från strukturering i institutionernas verksamhetssystem till aggregering och tillgängliggörande.

Under arbetet med digitala infrastrukturer blev det tydligt att det finns behov av en handbok som kan ge institutionerna stöd i deras val av digitala infrastrukturer och IT-lösningar för kulturarvsinformation. Digisam har utarbetat en sådan handbokPubliceras i januari 2016 som beskriver vad digitala infrastrukturer är, samt listar vilka olika typer av infrastrukturer som finns och vilka tjänster och verktyg som kan vara kopplade till dem.

Infrastrukturer

Figur 9. Skiss över infrastrukturer för kommunikation, data och forskningsinformation.

17.2 Digital informationshantering

Information om samlingar skapas, förvaltas och ibland även lagras i levande system som är under ständig förändring. Systemen är inte alltid ihopkopplade med tillhörande datafiler (t.ex. högupplösta bilder på objekt) eller långsiktiga bevarandelösningar. På så sätt splittras informationen både genom hur den beskrivs, och hur olika system hanterar respektive aggregerar data (se fig. 10 nedan).

beskrivningar

Figur 10. Olika domänspecifika beskrivningar av kulturarvsinformation vid institutioner.

Tillgång till gemensam lagring och användning av vedertagna internationella standarder och stödfunktioner, är ett första steg för att skapa ett högkvalitativt system för kulturarvsinformation som är till nytta för alla. Gemensamma infrastrukturer och andra tekniska resurser lägger grunden för att detta ska kunna uppnås på ett resurseffektivt sätt, så att samma typ av funktionalitet och expertis inte behöver byggas upp vid varje institution.

17.3 Aggregering

I detta sammanhang står uttrycket aggregering för insamling av metadata från olika institutioner för gemensam exponering på webbportaler, alternativt tillgängliggörande via API:erAPI eller applikationsprogrammeringsgränssnitt, av engelskans application programming interface, är en specifikation av hur olika applikationsprogram kan använda och kommunicera med en specifik programvara..

Aggregering, interoperabilitet och standarder är kärnfrågor i de åtaganden som Sverige gjort genom Europeiska Unionens rådsslutsatser om Europeana. Inom ramen för Digisams kartläggning av den digitala informationshanteringen utreddes hur publicering av digitaliserat kulturellt material i Europeana kan stödjas. Digisam undersökte om de standarder som används av Sveriges nationella aggregatorer är interoperabla på en nationell och internationell nivå. Digisam tittade även på möjligheterna till vidareutveckling.

De nationella domänspecifika aggregatorerna har centrala roller i arbetet med att tillgängliggöra informationen. I Sverige finns idag fyra stora nationella, domänspecifika, aggregatorer inom det statliga kulturarvsområdet: NAD (arkiv), LIBRIS/KB (bibliotek), GBIF (naturhistoriska samlingar och observationer) samt K-samsök (kulturmiljö- och museidata). Dessa aggregatorer samlar in information från andra kulturarvsinstitutioner till en gemensam datainfrastruktur. Det är dock endast beskrivande metadataMetadatastandard som beskriver informationen, till skillnad från t ex tekniska eller administrativa standarder. Dessa standarder kan vara specifika för olika institutioner, domäner, med mera. Beskrivande standarder grundas ofta i Dublin Core, en metadatastandard ursprungligen skapad för att underlätta sökning och hantering av webbaserade dokumentresurser. som samlas in, inte själva filerna.

När det gäller tillgänglighet på europeisk nivå finns information om arkiv via NAD i den Europeiska arkivportalen, Archives Portal Europe (APE). På bibliotekssidan är det The European Library (TEL) via KB som är ingången till bibliografiskt material. För audiovisuella samlingar deltar KB även i EU Screen på europeisk nivå. Museisamlingar görs tillgängliga på olika sätt, med olika metadata som varierar beroende på hur informationen aggregeras, t.ex. genom MINT (Metadata Interoperability Services) som används av ett flertal EU-finansierade projekt. GBIF finns även på europeisk nivå.


Infrastrukturer

Figur 11. Befintliga datainfrastrukturer för aggregering.

Idag skapas interoperabilitet mellan olika kulturarvsdomäner först i Europeana. Däremot finns det betydligt mer information som tillgängliggörs gemensamt inom respektive domän på nationell nivå än vad som syns i Europeana.

De nationella samsökningstjänsterna är idag inte sammankopplade på alla nivåer. I samsökningstjänsten Sondera kan man samsöka i NAD, SMDB och Libris. I Kringla kan man söka i musei- och kulturmiljöinformation. Utöver dessa sätt att tillgängliggöra kulturarvsinformationen för användare finns det flera regionala portaler, samt olika europeiska och internationella projekt och initiativ, som tillgängliggör information exempelvis genom tematiska portaler. Vissa aggregatorer (t ex K-samsök och Europeana) tillhandahåller också API:er (applikation programming interfaces), som förenklat kan sägas vara maskinläsbara gränssnitt mellan olika system, respektive mellan olika system och utvecklare. I ökande omfattning publiceras också dataset som maskinläsbar data, ofta på institutionernas webbplatser.

Aggregeringstjänster skördar idag vissa delar av kulturarvinformationen (metadata) för att göra den synlig och användbar. Eftersom olika tjänster använder olika metadatastandarder läggs förhållandevis mycket resurser på mappningEn jämförelse mellan två metadatascheman där kompatibla kopplingar mellan olika metadatafält definieras mellan olika metadatamodeller för att möjliggöra samsökning av information. I de allra flesta fall görs detta mot den lägsta gemensamma nivån, vilket innebär att informationen förlorar i kvalitet för varje aggregeringssteg. Idealt skulle beskrivningen av informationen i stället göras mot en hög, gemensam och interoperabel nivå. Det kräver användning av vedertagna internationella standarder och harmonisering av domänspecifika standarder på internationell nivå. Ett sådant initiativ har tagits med den konceptuella ISO-standarden för kulturarvsinformation, CIDOC CRM, som idag även finns i maskinläsbart format. Det skapar nya möjligheter för kulturarvsinstitutionerna att använda gemensamma ontologiska beskrivningar och att uttrycka dessa som länkbar dataAvser resurser som är tillgängliga på nätet i maskinläsbara, ickeproprietära format och i enlighet med datamodellen RDF138 (resource description framework) som möjliggör meningsbärande länkar och därmed den framväxande semantiska webben..

Digisams inventering, som redovisas i rapporten Digitalisering av kulturarvet - nuläge och vägvalsfrågor, visar dock att CIDOC CRM än så länge inte används i större utsträckning vid våra medverkande myndigheter. Riksarkivet deltar för närvarande i ett projekt, delfinansierat av Kulturrådet och Länsstyrelsen i Västernorrland där förutsättningarna testas för att praktiskt harmonisera arkivinformation med CIDOC CRM.

Även om länkad data är ett bättre och mer avancerat tekniskt sätt för att göra kulturarvsinformation användbar förväntas aggregering vara fortsatt aktuell så länge den efterfrågas av Europeana och i andra internationella samarbeten. Inom Europeana är aggregeringsprocesser och flöden för närvarande under översyn och den framtida strukturen är oviss.

På nationell nivå skulle aggregeringsstrukturen kunna effektiviseras genom att kopplas till gemensam lagring och en tjänst för strukturering av informationen enligt internationella interoperabla standarder. En digital tjänsteinfrastruktur utvecklas nu inom ett Europeanaprojekt där syftet är att skapa en sammanhållen och integrerad infrastruktur för digitala tjänster. Visionen bygger på att det i framtiden ska bli möjligt att indexera information och visa i Europeana utan att som idag behöva skicka den. Visionen är att dagens aggregatorer kommer att arbeta mer med expertstöd i framtiden. Detta kommer att grundas på en gemensam teknisk infrastruktur, Europe Cloud Services, som baseras på utvecklingen inom Europeana Cloud-projektet. Ett innovationsteam kommer att inrättas i november 2015 för att undersöka vad som är möjligt att uppnå i denna riktning under de kommande åren. Digisam kommer att vara representerade i teamet. Europeana ingår också överenskommelser med europeiska forskningsinfrastrukturer som DARIAH och CLARIN.

17.4 Semantiska webben och länkad öppen data

Vid de workshoppar Digisam hållit med representanter för de aggregerande institutionerna har enighet rått om att den semantiska webbens utveckling kommer att effektivisera och på sikt troligen ersätta aggregeringsprocesserna.

Öppna sammanlänkade datakällor kallas för länkad öppen data (LOD). Det innebär att informationen är maskinläsbar och utan hinder kan användas och återanvändas i andra sammanhang. En konsekvent implementering av länkad öppen data bedöms dock som något som ligger i framtiden. Digisams omvärldsbevakning pekar också på att länkbar data inom kulturarvsområdet även behöver ha processer för kvalitetskontroll, bevarande och sammanlänkningar. En e-infrastrukturell grund samt stöd i form av gemensamma tjänster för kulturarvsinstitutionerna är därför den viktigaste förutsättningen för att digital kulturarvsdata ska kunna komma till maximal nytta i det stora molnet av länkad öppen data.

Auktoritetsfiler är en typ av resurser som är särskilt värdefulla att tillgängliggöra som öppna data. Det kan handla om listor av brett intresse för många aktörer, över t.ex. ortsnamn, personnamn eller fastställda nomenklaturer. Sådana resurser bör tillgängliggöras strukturerat online för att kunna länkas samman med andra datakällor, och det arbetet bör bedrivas i öppet samarbete mellan berörda institutioner. För närvarande pågår uppbyggnad av olika plattformar för hantering av auktoriteter (terminologier, tesaurierKontrollerad ordlista med de semantiska relationerna mellan angivna termer (anmärkning: En tesaurus är ofta hierarkisk och omfattar i regel ett särskilt ämnesområde)., kontrollerade vokabulärer). Norska Kultur-IT har etablerat Kulturnav och Terminology Management Platform har tagits fram inom ramen för projektet AthenaPlus. En förutsättning för en hållbar användning av dessa plattformar är att de stöds av en beständig struktur för identifierare (se vidare i Digisams Checklista för beständiga identifierare). Gemensamma tjänster underlättar arbetet med sammanlänkning av den digitala kulturarvsinformationen och kan också kopplas till olika tillämpningar och applikationer.

Ett arbete med att publicera öppen data pågår vid några av Digisams medverkande myndigheter och institutioner. Riksantikvarieämbetet, Kungl. Biblioteket och Livrustkammaren med Skoklosters slott och Stiftelsen Hallwylska museet publicerar kontinuerligt digitaliserade samlingar och digital information som öppen data. På särskilda webbadresser publicerar KB och RA öppna dataset med särskilt fokus på vidareanvändning i enlighet med PSI-lagen.Lag (2015:289) om ändring i lagen (2010:566) om vidareutnyttjande av handlingar från den offentliga förvaltningen
Det finns också flera goda exempel på återanvändning av data genom användning av K-samsöks API.

17.5 SUNET

En e-infrastruktur är en teknisk grundstruktur för elektronisk kommunikation, lagring, bearbetning och visualisering av data samt nätverk för dataöverföring och avancerat användarstöd. Under de senaste åren har e-infrastrukturer gått från att vara rent tekniskt inriktade på kommunikationsnät till att även omfatta tjänster och ekosystem med flera nivåer.

En ökad dialog och samverkan mellan infrastrukturerna för forskning och för det digitala kulturarvet är under senare år en internationell trend. I Sverige har deltagandet i EU-projektet DC-net 2009-2013 öppnat för samarbete mellan SUNET och kulturarvsinstitutionerna. Projektet syftade till att främja den digitala infrastrukturen för att underlätta forskningens tillgång till information från kulturarvssektorn och är det första EU-projekt som initierat en direkt dialog mellan e-infrastrukturer, kulturarvsinstitutioner och forskningen. I Sverige underlättades arbetet av att de flesta statliga kulturarvsinstitutioner redan får sin grundläggande infrastrukturförsörjning genom den e-infrastruktur som SUNET tillhandahåller.

SUNET erbjuder idag, utöver ett stabilt nät, också en rad gemensamma tjänster som auktorisering genom SWAMID, (kvalitetssäkrad och säker identifiering av användare), backup och lagring, något som tidigare endast fanns i de enskilda institutionernas interna IT-miljö. Universitet och forskare har genom SUNET även tillgång till andra typer av resurser som i ett längre perspektiv kan vara av intresse av för en utvecklad infrastruktur för kulturarvsinformation.

I september 2014 skrev RA som huvudman för Digisam, tillsammans med VR och SUNET (Swedish University computer Network) under en gemensam avsiktsförklaring. Syftet var att förutsättningslöst samverka i infrastrukturella frågor och med det övergripande målet att bidra till en infrastruktur för digital kulturarvsinformation. Med utgångspunkt i avsiktsförklaringen har Digisam initierat en pilotstudie för att testa en lagrings- och backuptjänst, som i sin tur kan utvecklas till att bli den första byggstenen i en skalbar och flexibel infrastruktur för kulturarvsinformation.

17.6 Lagring och bevarande

Bevarande är en grundläggande förutsättning för tillgängliggörande och framtida användning av information. Gemensam hantering av det långsiktiga bevarandet skulle bidra till en ökad möjlighet för kulturarvsinformation från olika domäner att göras förståelig och kommuniceras sömlöst. Samtidigt skulle ett långsiktigt tillgängliggörande möjliggöras bl.a. genom att informationshanteringen effektiviseras och informationen packas i standardiserade paket, i synnerhet när det gäller strukturen på metadata. Gemensamma lagringslösningar skulle vidare ge bättre kvalitet till lägre kostnad och samtidigt underlätta åtkomst till informationen för institutioner, skolor, forskare, utvecklare och andra medborgare.

Digisam genomförde under 2013 och 2014 en förstudie om digitalt bevarande. Resultaten presenteras i rapporten Digitalt bevarande vid kulturarvsinstitutioner, nulägesanalys och framtida behov. Som ett stöd till förstudiens arbetsgrupp utsågs en expertgrupp kring bevarandefrågor som bidrog med kunskap och kompetens. En undersökning av befintliga lösningar och kvarstående behov gjordes genom workshoppar och intervjuer med representanter för medverkande myndigheter och institutioner. I nästa steg studerades de längst fram liggande lösningarna idag vad gäller långsiktigt bevarande på nationell och internationell nivå. Slutligen gjordes en analys av gapet mellan nuläget och de behov som identifierats under processen.

Flera institutioner har ett uttalat behov av vägledning för hur man ska tänka och planera för bevarande av digital kulturarvsinformation på både kort och lång sikt. Den vägkarta som utarbetades inom ramen för EU-projektet DCH-RP är en bra utgångspunkt för att ta fram en svensk vägledning i dessa frågor.

Förtroende är en grundläggande aspekt vid lagring och bevarande. Institutionerna måste känna sig trygga med att nya, gemensamma lösningar är både hållbara, väl förvaltade och uppdaterade. SUNET har både erfarenhet och expertis i linje med dessa krav och besitter dessutom kraftiga, stabila nätverksresurser och en utvecklad tjänstekatalog.

17.7 Gemensamma tjänster och verktyg

Digisams förstudie om digitalt bevarande vid kulturarvsinstitutionerna belyste också ett tydligt uttryckt behov av en gemensam tjänst för lagring. De myndigheter och institutioner som deltog i förstudien framförde också önskemål om funktionalitet för tillgängliggörande av informationen, t.ex. i form av länkad öppen data, kombinerad med tillgång till verktyg för långsiktigt bevarande. De såg vidare flera fördelar med en gemensam lösning, bl.a. skalfördelar vid upphandling, säkerhetsarbete och konvertering till format för långsiktigt bevarande.

Förstudien definierade även behovet av stöd med råd och expertis vid planering av långsiktigt bevarande. Särskilt betonades behovet av definierade gemensamma standarder och att de juridiska aspekterna på informationslagring utanför den egna institutionen behöver klargöras.

Med en koordinerande stödfunktion för flera institutioner kan arbetet med lagring förenklas och hållas samman och ge stöd för t.ex. framtagandet av rutiner, strategier och prioriteringar men även i form av implementering och förvaltning av gemensamma verktyg för t.ex. konvertering.

Även om varje domänspecifik information kräver speciella anpassningar är det inte så stor skillnad på digitala filer från kulturarvssektorn och andra sektorer. Riksarkivets arbete inom eARD-projektet definierades i Digisams förstudie som en användbar utgångspunkt. På övergripande nivå skulle eventuellt särskilda förvaltningsgemensamma specifikationer (FGS:er) behövas för exempelvis museisamlingar. Tillämpning av befintliga FGS:er, eller nya för kulturarvsinformation, skulle vara ett steg mot att bevara samlingsinformation på ett strukturerat och långsiktigt hållbart sätt.

18 Framtida behov av samverkan