Forskarvärlden drunknar

De senaste årens explosion i antalet nya analysmetoder inom life science har drastiskt förändrat förutsättningarna för många typer av forskningsprojekt. Men även om Big Data-metoderna har potential att drastiskt förändra det vetenskapliga landskapet är det på många sätt precis som förut, för att få ett vettigt svar krävs framförallt en bra fråga.

De nya storskaliga metoderna skapar helt nya möjligheter för forskare att på kort tid producera mängder med data. Tidigare var det framförallt det manuella arbetet som satte gränser medan i dag i många fall är datahanteringen som utgör flaskhalsen. Torbjörn Hägglöf är kundansvarig för IBM life science i Sverige och har följt utvecklingen under de senaste tio åren

– Big Data inom life science kommer i dag i alla möjliga varianter, dels som analysdata från metoder som Next Generation Sequencing, NGS, men också som strömmande data exempelvis i vården i form av övervakning av spädbarn på neonatalavdelningar eller som radioteleskopet Square Kilometer Array, SKA, som kommer att samla in ungefär två gånger så mycket data varje dag som dagens globala internettrafik.

Men även om big data visserligen skapar nya möjligheter inom life science menar Torbjörn Hägglöf att man inte ska vänta sig att jättemängderna data i sig ska besvara några frågor.

– Nej, det är back to basics som gäller. Som man ropar får man svar, så för att få ut ett vetenskapligt svar måste man också kunna ställa en relevant fråga. Det ställer krav på en Big Data plattform som gör att vi kan hitta, visualisera och förstå big data för att kunna besvara de vetenskapliga frågorna.

Ett företag vars hela affärsidé baserar sig på big data är mjukvaruföretaget Qlucore som bildades 2007. Idén växte fram under förstadiet till bigdata-eran

– Det var i början av 2000-talet när array-försöken slog igenom på allvar. Plötsligt kunde man göra 10-20 000 mätpunkter till samma pris som man tidigare gjort 100. Thoas Fioretos, överläkare och professor i klinisk genetik på Lunds Universitet hade massor med data men inga tillräckligt bra analysverktyg och kontaktade därför sin kollega Magnus Fontes, professor i matematik för att få hjälp. Det ledde till ett forskningssamarbete som i sin tur blev grunden till företaget, säger Carl-Johan Ivarsson, vd på Qlucore.

Qlucores dataprogram är designade för att visualisera data på ett sätt som gör det lätt för forskaren att hitta mönster i datamängderna och sedan skilja ut det som är viktigt.

– Den mänskliga hjärnan är oslagbar vad gäller att uppfatta mönster, därför har vi utformat mjukvaran efter den principen. En annan viktig faktor är att analyserna går snabbt, ska man jobba interaktivt med data måste man kunna se förändringarna direkt på skärmen. Samtidigt ska det gå att köra analyserna på en vanlig dator.

Enligt Carl-Johan Ivarsson är det dock inte alltid som forskarna hinner utveckla sitt arbetssätt i takt med den tekniska utvecklingen.

– Ett misstag som många gör när de ska sätta upp en analysplattform är att de lägger väl mycket tid på att tänka och planera för insamling och lagring av data och för lite på hur man ska tolka och förstå data när man väl har dem. Där ser man en skillnad mot andra big data-områden där fokus ofta ligger just på analys och tolkning.

– Jag tror att en av anledningarna till att det ser ut på det sättet är att utvecklingen gått så fort de sista åren, det är inte så länge sedan det mesta arbetet gjordes för hand och då var det producerandet av nya data som var flaskhalsen, idag ligger den i stället längre fram i ledet.

Qlucore fortsätter att samarbeta med forskare vid Lunds Universitet, enligt Carl-Johan Ivarsson är det ett utbyte som fungerar synergistiskt för båda parter.

– De hjälper oss att implementera lösningar som ligger i forskningsfronten och säger till oss vad som fattas eller kan förbättras, samtidigt som deras forskning vässas av att ha tillgång till de frågeställningar och krav som uppkommer av att forskningen skall kunna användas i en mjukvara.

Ett exempel på ett projekt som alstrar stora mängder data är the Human Protein Atlas på Kungliga Tekniska Högskolan, KTH, det har som mål att kartlägga alla kroppens proteiner. Det görs primärt med hjälp av antikroppsinfärgningar och kompletteras även

med RNA-sekvensering i form av Next Generation Sequencing, NGS.

– Den totala datamängden ökar hela tiden, vi kartlägger ett stort antal proteiner varje år och utvecklar parallellt våra arbetsprocesser samt lägger till fler assays vilket leder stora datamängder, både i form av numeriska data och i form av bilder, säger Linn Fagerberg, forskare i Proteinatlas-projektet.

I optimeringen av metoder går utvecklingen mer och mer mot tekniker som resulterar i stora datamängder. Något som kräver speciella it-lösningar.

– Vi har ett egenutvecklat Laboratory Information Management system, LIMS, som är baserat på en öppen källkod och har skräddarsytts för projektets behov. Vad det gäller hårdvara har vi mestadels investerat i egna lösningar men samarbetar även med Parallelldatacentrum, PDC, som tillhandahåller bland annat beräkningskluster till de stora datamängderna vi genererar, säger Kalle von Feilitzen, gruppledare för IT-gruppen inom proteinatlasprojektet.

– Vi gör en mängd olika analyser och använder framförallt verktyg med öppen källkod till kartläggningen av gener. Förutom beräkningsklustren på PDC har vi även samarbeten som ger oss tillgång till datorkapacitet, fortsätter han.

Den största utmaningen med den ökande datamängden tycker Linn Fagerberg och Kalle von Feilitzen är att hålla reda på alla förändringar som sker.

– Det är svårt att alltid hänga med i det senaste eftersom utvecklingen går så otroligt snabbt och vi måste hela tiden förhålla oss till flera olika instanser så att vi kan koppla ihop och integrera våra data med andras. Det finns ingen direkt standardisering kring nomenklatur eller vilka program man använder, så det är inte ovanligt att samma protein finns omnämnt med tio olika namn i olika databaser.

Enligt Linn Fagerberg finns det inte tid att analysera alla data som genereras i projektet.

– Det skulle vara bra med fler resurser för att analysera våra data. Idag görs en stor del av bedömningen av våra bilder manuellt, men informationen finns publikt tillgänglig.

Redan i dag får proteinatlas-projektet en hel del feedback på sina data.

– Det är både negativ och positiv kritik och kommentarer som vi får. Det är också väldigt många som vill samarbeta med oss, tyvärr kan vi inte säga ja till alla, säger Kalle von Feilitzen.

Hittills har Proteinatlasprojektet plöjt igenom knappt 15 200 gener med hjälp av 18 000 antikroppar, det motsvarar ungefär 75 procent av totalantalet på runt 20 000 som förväntas vara färdigt 2015. Men det är bara första fasen av proteinatlasprojektet.

– När vi kartlagt alla gener blir analysbiten ännu mer intressant, tanken är att vi då ska komplettera med andra metoder som masspektrometri och RNA-interferens. Vi ska helt enkelt gå mer på djupet och göra en ännu bättre proteinatlas, säger Linn Fagerberg.

Förutom en större bredd inom den befintliga sfären ska projektet också fokusera mer på vissa områden.

– I dag är vi specialiserade på cancer, men på sikt har vi tänkt titta närmare på fler sjukdomsområden och modellorganismer, säger Linn Fagerberg

{{ visitor.ipAccess.member.name }}

{{ visitor.ipAccess.corporateClient.name }}

{{ visitor.person.name }}

Forskarvärlden drunknar

Medlemsnytt

Mest läst

Senaste nytt

Utvalda artiklar

Utvalda nyheter från förstasidan

WHO: Pandemiavtal klart

MSD satsar på peptider i tablettform – ingår licensavtal

Alzheimerforskaren om godkännandet av Leqembi: ”Stora vinster att göra”

Svensk life science i gemensam uppmaning: ”EU har ett vägval att göra”

Hon är ny ordförande för Swedish Medtech

Andra Nordiska Medier

Nyhetsbrev

Sänd till en kollega