Forskarvärlden drunknar
De senaste årens explosion i antalet nya analysmetoder inom life science har drastiskt förändrat förutsättningarna för många typer av forskningsprojekt. Men även om Big Data-metoderna har potential att drastiskt förändra det vetenskapliga landskapet är det på många sätt precis som förut, för att få ett vettigt svar krävs framförallt en bra fråga.
– Big Data inom life science kommer i dag i alla möjliga varianter, dels som analysdata från metoder som Next Generation Sequencing, NGS, men också som strömmande data exempelvis i vården i form av övervakning av spädbarn på neonatalavdelningar eller som radioteleskopet Square Kilometer Array, SKA, som kommer att samla in ungefär två gånger så mycket data varje dag som dagens globala internettrafik.
Men även om big data visserligen skapar nya möjligheter inom life science menar Torbjörn Hägglöf att man inte ska vänta sig att jättemängderna data i sig ska besvara några frågor.
– Nej, det är back to basics som gäller. Som man ropar får man svar, så för att få ut ett vetenskapligt svar måste man också kunna ställa en relevant fråga. Det ställer krav på en Big Data plattform som gör att vi kan hitta, visualisera och förstå big data för att kunna besvara de vetenskapliga frågorna.
Ett företag vars hela affärsidé baserar sig på big data är mjukvaruföretaget Qlucore som bildades 2007. Idén växte fram under förstadiet till bigdata-eran
– Det var i början av 2000-talet när array-försöken slog igenom på allvar. Plötsligt kunde man göra 10-20 000 mätpunkter till samma pris som man tidigare gjort 100. Thoas Fioretos, överläkare och professor i klinisk genetik på Lunds Universitet hade massor med data men inga tillräckligt bra analysverktyg och kontaktade därför sin kollega Magnus Fontes, professor i matematik för att få hjälp. Det ledde till ett forskningssamarbete som i sin tur blev grunden till företaget, säger Carl-Johan Ivarsson, vd på Qlucore.
Qlucores dataprogram är designade för att visualisera data på ett sätt som gör det lätt för forskaren att hitta mönster i datamängderna och sedan skilja ut det som är viktigt.
– Den mänskliga hjärnan är oslagbar vad gäller att uppfatta mönster, därför har vi utformat mjukvaran efter den principen. En annan viktig faktor är att analyserna går snabbt, ska man jobba interaktivt med data måste man kunna se förändringarna direkt på skärmen. Samtidigt ska det gå att köra analyserna på en vanlig dator.
Enligt Carl-Johan Ivarsson är det dock inte alltid som forskarna hinner utveckla sitt arbetssätt i takt med den tekniska utvecklingen.
– Ett misstag som många gör när de ska sätta upp en analysplattform är att de lägger väl mycket tid på att tänka och planera för insamling och lagring av data och för lite på hur man ska tolka och förstå data när man väl har dem. Där ser man en skillnad mot andra big data-områden där fokus ofta ligger just på analys och tolkning.
– Jag tror att en av anledningarna till att det ser ut på det sättet är att utvecklingen gått så fort de sista åren, det är inte så länge sedan det mesta arbetet gjordes för hand och då var det producerandet av nya data som var flaskhalsen, idag ligger den i stället längre fram i ledet.
Qlucore fortsätter att samarbeta med forskare vid Lunds Universitet, enligt Carl-Johan Ivarsson är det ett utbyte som fungerar synergistiskt för båda parter.
– De hjälper oss att implementera lösningar som ligger i forskningsfronten och säger till oss vad som fattas eller kan förbättras, samtidigt som deras forskning vässas av att ha tillgång till de frågeställningar och krav som uppkommer av att forskningen skall kunna användas i en mjukvara.
Ett exempel på ett projekt som alstrar stora mängder data är the Human Protein Atlas på Kungliga Tekniska Högskolan, KTH, det har som mål att kartlägga alla kroppens proteiner. Det görs primärt med hjälp av antikroppsinfärgningar och kompletteras även
med RNA-sekvensering i form av Next Generation Sequencing, NGS.
– Den totala datamängden ökar hela tiden, vi kartlägger ett stort antal proteiner varje år och utvecklar parallellt våra arbetsprocesser samt lägger till fler assays vilket leder stora datamängder, både i form av numeriska data och i form av bilder, säger Linn Fagerberg, forskare i Proteinatlas-projektet.
I optimeringen av metoder går utvecklingen mer och mer mot tekniker som resulterar i stora datamängder. Något som kräver speciella it-lösningar.
– Vi har ett egenutvecklat Laboratory Information Management system, LIMS, som är baserat på en öppen källkod och har skräddarsytts för projektets behov. Vad det gäller hårdvara har vi mestadels investerat i egna lösningar men samarbetar även med Parallelldatacentrum, PDC, som tillhandahåller bland annat beräkningskluster till de stora datamängderna vi genererar, säger Kalle von Feilitzen, gruppledare för IT-gruppen inom proteinatlasprojektet.
– Vi gör en mängd olika analyser och använder framförallt verktyg med öppen källkod till kartläggningen av gener. Förutom beräkningsklustren på PDC har vi även samarbeten som ger oss tillgång till datorkapacitet, fortsätter han.
Den största utmaningen med den ökande datamängden tycker Linn Fagerberg och Kalle von Feilitzen är att hålla reda på alla förändringar som sker.
– Det är svårt att alltid hänga med i det senaste eftersom utvecklingen går så otroligt snabbt och vi måste hela tiden förhålla oss till flera olika instanser så att vi kan koppla ihop och integrera våra data med andras. Det finns ingen direkt standardisering kring nomenklatur eller vilka program man använder, så det är inte ovanligt att samma protein finns omnämnt med tio olika namn i olika databaser.
Enligt Linn Fagerberg finns det inte tid att analysera alla data som genereras i projektet.
– Det skulle vara bra med fler resurser för att analysera våra data. Idag görs en stor del av bedömningen av våra bilder manuellt, men informationen finns publikt tillgänglig.
Redan i dag får proteinatlas-projektet en hel del feedback på sina data.
– Det är både negativ och positiv kritik och kommentarer som vi får. Det är också väldigt många som vill samarbeta med oss, tyvärr kan vi inte säga ja till alla, säger Kalle von Feilitzen.
Hittills har Proteinatlasprojektet plöjt igenom knappt 15 200 gener med hjälp av 18 000 antikroppar, det motsvarar ungefär 75 procent av totalantalet på runt 20 000 som förväntas vara färdigt 2015. Men det är bara första fasen av proteinatlasprojektet.
– När vi kartlagt alla gener blir analysbiten ännu mer intressant, tanken är att vi då ska komplettera med andra metoder som masspektrometri och RNA-interferens. Vi ska helt enkelt gå mer på djupet och göra en ännu bättre proteinatlas, säger Linn Fagerberg.
Förutom en större bredd inom den befintliga sfären ska projektet också fokusera mer på vissa områden.
– I dag är vi specialiserade på cancer, men på sikt har vi tänkt titta närmare på fler sjukdomsområden och modellorganismer, säger Linn Fagerberg