Big Data på internationell basis
Big Data. Fältet är lika brett som det är komplext. Medan de tekniska framgångarna driver utvecklingen av datainsamlingar framåt testar forskare inom flera olika vetenskaper sig fram kring hur de kan applicera framstegen i deras egna forskning. Men utvecklingen av Big Data, eller e-Science, har en bit kvar att gå innan man kan se dess fulla potential.
Till skillnad från begreppet Big Data är e-Science ett bredare begrepp som innefattar dels stora datamängder dels verktygen för att tolka och hantera datan. Pratar man därför om att utveckla datahanteringen för att möjliggöra nya metoder i forskning bör det benämnas e-Science. Det slog Anders Ynnerman vid Linköpings universitet fast under ett av seminarierna.
- Big Data är bara en del av e-Science. När man pratar Big Data är det oftast e-Science man menar.
Under två halvdagar på Karolinska institutet campus Solna höll Swedish e-Science Research Centre, Serc, sitt femte årsmöte. Konsortiet har bildats som ett samarbete mellan flera svenska lärosäten och styrs av Kungliga Tekniska Högskolan med noder ute på Karolinska institutet, Linköpings universitet och Stockholms universitet. Att årsmötet tog plats på KI var ingen tillfällighet. Under de senaste åren har vi sett hur användningen av e-Science använts framgångsrikt i den medicinska forskningen.
- Jag är väldigt förtjust över att konferensen tar plats på KI. KI är, förutom ledande inom en stor bredd av sjukdomar, också väldigt engagerade i forskning kring användningen av stora datamängder, inledde Anders Hamsten, rektor på Karolinska institutet.
- För att lösa framtidens frågor måste vi ha en bredd av kompetens på området och det har vi genom samarbetet mellan de fyra universiteten, vilket gör Sverige konkurrenskraftiga i fältet.
Och de medicinska exemplen är många. Gensekvensering är ett område där Big Data är en självklarhet. Bara i Storbritannien drivs ett flertal stora sekvenseringsprojekt som vardera sekvenserar gener från mellan 100 000 till en halv miljon personer i projekt som Kaiser Permanente, China Kadoorie Biobank, UK Biobank, MVP och Genomics England. Nyligen bildades också Oxford Big Data som är ett forskningscenter i anslutning till Oxford University. Forskningscentret jobbar bland annat med forskningsprojektet A Thousand Genomes Project inom vilket tusen hela genom sekvenserats och gjorts tillgängliga för forskarvärlden. Helgenomsekvenseringen används nu också i klinik inom ett av centrets projekt.
Gilean McVean, director på Oxford Big Data, gästade Serc-mötet och berättade vad Big Data betyder för den medicinska forskningen.
- Det är i det stora antalet som det stora värdet finns. Genom att titta på 500 000 personer i stället för 5 000 kan vi hitta sällsynta sjukdomar och variationer som kanske bara finns hos en av tusen, sa han.
På Oxford Big Data institutet samlar forskarna också in data från bakterier, infektionssjukdomar och patientjournaler på nätet. Målet är att ta fram bättre diagnosverktyg, bättre behandlingar och även bättre möjligheter att kunna förebygga sjukdomsutveckling.
- Bland annat har vi gjort studier där vi pekar på sambandet mellan högt blodtryck och risk att utveckla hjärtkärlsjukdom, sa han.
I projektet Genomics England har 100 000 genom sekvenserats och kopplats samman med patientjournaler för att studera sällsynta sjukdomar och cancer. Projektet pågår och kommer att utvärderas år 2017.
- All data kommer att göras tillgängliga för forskarvärlden och länkas till patientjournaler, påpekade han.
Big Data spås inte bara kunna ge grundforskningen en skjuts framåt. Även inom läkemedelsutvecklingen tror forskarna att de tekniska verktygen kan komma att spara stora pengar åt läkemedelsbolagen. För att sätta användningen av Big Data i ett sammanhang nämnde Gilean McVean Glaxosmithklines läkemedelsprojekt Darapladib, en läkemedelskandidat som skulle minska nivåerna av enzymet Lp-PLa2 som har länkats samman med hjärtsjukdom. 800 miljoner pund och en misslyckad fas III-studie senare förstod bolaget att skillnaderna i enzymnivåerna berodde på en mänsklig variation.
- Här har vi ett exempel där analyser av Big Data hade kunnat svara på om kopplingen fanns eller inte innan bolaget la ner en massa pengar i projektet.
I Danmark löper ett storskaligt Big Data-projekt där danska regeringen för ett år sedan beslutade att alla register innefattande exempelvis patientjournaler och sekvenserade genom skulle kopieras och samlas i en institution kallad “Data Inn”. Institutionen har därefter gjort informationen öppen för allmänheten genom siten www.sundhed.dk. Målet är att få ut bäst vård för de pengar staten investerar inom hälso- och sjukvård.
Mads Melbye, från Statens Serum Institut i Köpenhamn, var på Serc-mötet och berättade om hur det hela fungerade.
- För forskare är detta en ypperlig plattform. Den växer hela tiden. Så fort någon gör ett laboratorietest får vi en kopia på resultaten.
Databasen innehåller all typ av information från en individs liv, från födsel, sjukdom, diagnos och även socioekonomisk information som lön, dagar på sjukhus, och kostnad per behandling. Till det kommer också The Danish National Biobank, en biobank med 15 miljoner prover från flera miljoner danskar, som forskare kan söka i för olika forskningsprojekt. I biobanken kan forskare söka bland mänskliga prover utifrån ålder, kön, sjukdom, tid sedan diagnostillfälle.
- Vi har exempel med forskningsprojekt där man tittar på barnvaccinering och sällsynta biverkningar som är svåra att undersöka utan databasen och just nu görs en studie med kvinnors bröstcancerrisk kopplat till ålder vid barnafödande och antal barn, berättade han.
Ett stort användningsområde för Big Data är inom området för personalized medicine, spår Mads Melbye.
- Du kan ta en grupp sjuka människor, ge dem medicin och studera skillnaden mellan dem som blev friska och dem som inte blev det.
Sådana studier görs i dag av stora läkemedelsbolag till oändliga kostnader, menar Mads Melbye. Som exempel nämner han Merck som gjorde en studie för ett par år sedan där de tog in 22 000 patienter från 2 954 kliniker i 11 olika länder.
- Vi kan göra samma studie i dag fast betydligt billigare genom att samarbeta med biobanker i andra länder, konstaterade han.
Exemplen på användningsområden för Big Data är många och storskaliga och forskningen kring hur stora datamängder ska kunna hanteras och driva andra forskningsområden framåt pågår runt om i världen. Ett av problemen som belystes under seminarierna var att även om satsningarna på Big Data är väldigt stora så är de ofta drivna på nationell nivå och har dålig kontakt med andra Big Data-projekt i andra länder. Och det är något organisationerna måste blir bättre på, menade Gilean McVean.
- Bara sekvensering genererar mycket data, för att kunna handskas med det måste det bli automatiserat och byggas infrastruktur för att man ska lära sig tolka datan.
Också Niklas Blomberg, director på konsortiet Elixir, var på Sercs årsmöte. Med en bakgrund från både Cern och Astrazeneca har han en bra inblick i både datavetenskapen och den medicinska forskningen. Som de stora utmaningarna för Big Data pekade han på det faktum att få till en infrastruktur som ska kunna användas av en miljon användare, samtidigt som att det ska klara av att lagra och hantera stora datamängder, integrera kliniska och translationella datainsamlingar och algoritmer på ett etiskt och hållbart sätt som värnar om den personliga integriteten.
Och det är just det som Elixir arbetar med. Elixir är ett juridiskt konsortium med åtta värdländer i dagsläget, Tjeckien, Danmark, Estland, Nederländerna, Norge, Sverige, Schweiz och Storbritannien. Och fler länder har visat intresse.
- Innan året är slut tror jag att vi kommer att se tre fyra nya länder anslutna till Elixir, sa han.
Elixir verkar internationellt genom nationella noder. I noderna byggs lokala databaser med bioinformation ofta inom olika områden som är viktigt för de olika länderna, som exempelvis Norge som fokuserar mycket på forskning inom det marina.
- Alla noder har sin nationella prioritet. Med nätverket inom Elixir är tanken att de olika noderna ska lära sig av de länder som kommit längre i användningen av Big Data oavsett forskningsfält, sa Niklas Blomberg.
Elixirs uppdrag är att fokusera på fem områden; att standardisera insamling av data, utveckla tjänster och nätverk för användning av Big Data, möjliggöra tillgång och utbyte av känsliga data, integrera olika datatyper och utbilda personal som arbetar inom fältet.
- Vad jag vet från erfarenhet i industrin så är det svårare än man tror att mixa och kombinera olika tjänster och program. Speciellt om man ska dela med sig informationen utanför det egna nätverket efteråt.
Något som dock inte togs upp under konferensen var den etiska aspekten på Big Data och insamlingen av genetisk information. Ämnet vidrördes under den regulatoriska aspekten, och man konstaterade att EU:s datalagringsdirektiv kan komma att ha stor påverkan på Big Datas framtid.