Allt mer data skapas - och återanvänds
Det alstras snabbt allt mer data i biotech-sfären, och databaserna växer explosionsartat.
Publika och privata databaser
En databas är ett system för att lagra, organisera och enkelt plocka fram data.
Inom biotechsfären finns ett stort antal publika databaser som vem som helst med kunskap i bioinformatik kan plocka ut data från.
De stora företagen har även privata databaser. Exakt hur mycket data som finns i biochsfären är det därför ingen som vet.
Det skapas ungefär hundra gånger så mycket data i biotechsfären i dag som för med för tio år sedan. Till exempel finns data om mer än 120 000 000 000 basar samlade i olika databaser världen över, enligt Jens Nielsen, professor i systembiologi vid Chalmers, som har arbetat med bioinformatik under många år.
– Att datamängderna ökar så snabbt beror på att det har blivit så enkelt och billigt att generera data, säger han.
I dag kan en forskargrupp sekvensera genomet hos hundra patienter för att försöka hitta små genetiska skillnader som kan korreleras med vissa sjukdomar. Det innebär att teväldigt mycket data alstras för att relativt små fynd ska kunna göras.
Enligt Jens Nielsen har biotechforskningen i mångt och mycket gått från hypotesdriven till upptäcktsbaserad.
– I dag genererar du först en massa data, och sedan kommer du fram till en hypotes. Det är ett helt annat sätt att jobba än då du först har en hypotes som du sedan testar.
All data som skapas sparas i enorma databaser för att kunna återanvändas av andra forskargrupper. Och för att förenkla återanvändandet har det skapats en gemensam infrastruktur för bioinformatik med god kommunikation mellan databaserna. Det har även lagts en hel del kraft på att skapa färre och större databaser istället för att ha data utspritt på mängder av små databaser. Under de senaste fem åren har det också gjorts stora ansträngningar för att skapa standarder för hur olika data ska vara utformas.
– Om vi tar jäst, som vi använder i vår forskning, måste vi till exempel ange vilken temperatur och vilket pH vi hade vid experimentet, om vi använde vitaminer, hur vi dödade jästcellerna och så vidare. Allt måste definieras väldigt rigoröst innan vi får stoppa in värdena i databasen.
Standardiseringsarbetet är dock inte färdigt, och det kommer det aldrig att bli, enligt Jens Nielsen.
– Det är ett rörligt mål. Mycket är standardiserat idag, men så utvecklas ny teknik och då måste vi standardisera för det också.
Det område som genererar mest data i biotechsfären är gensekvensering. Idag finns det data om mer än 120 000 000 000 baspar samlade i olika databaser. Ett annat område som ger enorma mängder data är proteinanalys och i databaserna finns information om mer än 500 000 proteinfamiljer.
De flesta av de stora databaserna är internationella och används av forskare över hela världen. Finansieringen står dock oftast ett enskilt land eller en liten grupp av länder för.
– Det kostar naturligtvis en del att sköta om de här växande databaserna och vi kan bara hoppas att de kommer att tas om hand i fortsättningen.
Men trots att informationsmängden växer explosionsartat handlar det inte om några jättemängder räknat i byte. Den här typen av information är inte särskilt utrymmeskrävande och jämfört med exempelvis video och musik är datamängderna fortfarande försvinnande små.
– Jag gissar att mycket data används minst fem gånger eller mer, bland annat eftersom man hela tiden kommer på nya analysmetoder, säger Jens Nielsen.