Nytt system hanterar sekvenseringsdata
Dagens avancerade tekniker för sekvensering av DNA gör att det behövs nya system för att lagra de enorma mängder data som samlas. På Uppmax i Uppsala finns ett resurscentrum som hanterar merparten genetiska data från Uppsala universitet.
Uppsala Multidisciplinary Center for Advanced Computational Science, Uppmax, har nyligen installerat ett system speciellt avsett för gensekvensdata. I oktober införskaffades oktober ett parallellt lagringssystem från företaget Panasas och beräkningsresurser från företaget HP för dataintensiva arbetsflöden.
– Sedan lagringen togs i drift i början av oktober har vi använt 27 terabyte, av totalt 530 terabyte, för sekvensdata. Vi har cirka 180 beräkningsnoder med sammanlagt 1440 beräkningskärnor som kommer att användas enbart till sekvensdata, säger Jonas Hagberg.
Han berättar att de sekvenseringsmaskiner som Uppmax hanterar data ifrån i dag finns på Institutionen för genetik och patologi och Institutionen för medicinska vetenskaper, båda vid Uppsala universitet.
Forskarna från de institutionerna sekvenserar alla möjliga organismer från människor och andra däggdjur till svampar, bakterier och växter. Huvudtillämpningarna är att undersöka strukturella DNA-variationer, sekvensera mRNA och små RNA-molekyler samt ”ChIP-seq”, studier av var DNA-bindande proteiner binder.
– Det jag har jobbat med främst är att ta reda på kravspecifikationer för datalagringen, vilket har varit en utmaning. Det är svårt för forskarna att få en tydlig bild av sina behov eller krav, berättar Jonas Hagberg.
– Nu när vi har fått allt på plats har arbetet påbörjats med själva datahanteringen – var ska data ligga, hur ska det tas backuper, hur ska arkivering gå till väga, och så vidare, Eftersom behovet av lagring har varit så extremt stort så har mycket påbörjats innan vi har en riktig miljö att arbeta i.
Vad finns det då för flaskhalsar inom arbetet med sekvenserna?
– Vårt system har egentligen inga flaskhalsar i nuläget. Men med flera sekvenseringsmaskiner ökar kravet på nätverksförbindelserna inom universitetet.
– Det finns dock plan på att uppgradera dess till 10 Gb inom ett år. Flaskhalsar för forskarna som arbetar med dessa data är väl kanske att hinna analysera alla data som genererats. Det kommer ständigt bättre analys och sekvenseringsmetoder, säger Jonas Hagberg.
För labb som inte har tillgång till resurscentra som Uppmax kan räddningen komma att bli molnberäkningar, cloud computing. Nyligen presenterade två amerikanska forskare ett system, Crossbow, som sägs kunna analysera ett helt mänskligt genom på ett par timmar för cirka 100 amerikanska dollar. Den kalkylen gäller om man hyr beräkningskraft och lagringsutrymme på Elastic Compute Cloud, Amazon.coms molnplattform där man betalar efter hur mycket utrymme och hur många beräkningar man utför.
Crossbow kan också installeras på ett “vanligt” datorkluster och beräknas då kunna analysera ett mänskligt genom på cirka ett dygn i ett kluster bestående av tio datorer.
Enligt Jonas Hagberg har Snic pilotprojekt inom cloud computing, men utvärderingen är inte klar och det finns indikationer på att molnbaserade lösningar är för långsamma för högprestandaberäkningar. Det finns även potentiella säkerhetsrisker när det gäller känsliga data som DNA-sekvenser.