A gigantikus genetikai adatbázis egymilliárd kereshető tételt tárol
A Wellcome Trust Sanger intézet „World Trace Archive” nevű, DNS-szekvenciákat nyilvántartó adatbázisának mérete nemrégiben elérte az egymilliárd rekordot.
DNS-spirál. Robot olvassa ki a kódokat |
Az archívumban tárolt adatok mennyiségéről tán mond valamit,ha egyetlen szövegsorban lennének leírva, az 250-szer körbeérné a Földet. Ha e szöveget A4-es papírlapokra nyomtatnák, a lapok kötegei két és félszer magasabbra tornyosulnának, mint a Mount Everest. Az archívum 22 terabájt nagyságú, és mérete minden hónapban megduplázódik: ez valószínűleg Európa, vagy talán a világ legnagyobb tudományos adatbázisa. Összehasonlításképpen: a British Library 13 millió tételt tartalmaz, az amerikai kongresszusi könyvtár 115 milliót, míg a Trace Archive egymilliárd különálló információs egységet tárol.
Szekvenciák és nyomok |
Fluoreszkáló anyaggal jelölik meg a genetikai kód minden egyes „betűjét” (az úgynevezett bázisát) a DNS-szekvenciák meghatározásánál . A szekvenciát robotok olvassák ki, amelyek az egyes bázisokat a vörös, zöld, sárga vagy kék fluoreszcens fény mérési értékének csúcsaként érzékelik. A bázisoknak ez a leképezése a „nyom”. |
Martin Widlake, a Wellcome Trust Sanger intézet adatbázis-szolgáltatásokért felelős igazgatója elmondta, hogy: „A Trace Archive 22 ezer gigabájtos méretével a világ tíz legnagyobb UNIX-adatbázisa között van. Az adathalmaz növekedésével egyre nagyobb problémát jelent az adatok elérése. Az egész adatbázisból egy adott génszekvenciát előkeresni olyan, mintha egyetlen mondatot keresnénk a British Library anyagában, ami meglehetősen munkaigényes feladat. A Sanger intézet csapata mindamellett olyan új módszereken dolgozik, amelyek könnyebbé teszik az adatok keresését és elérését.”
Ezt a hatalmas mennyiségű adatot egy Oracle Database 10g adatbázis kezeli. A feldolgozott adatokat négy HP ES45 szerverből álló számítógép fürt tölti fel az adatbázisba. A Winter Corporation 2005-ös, adatbázisokról készült felmérése szerint (amely a világ legnagyobb adatbázisait sorolja fel) a Trace Archive az ötödik helyezést éri el olyan óriások mögött, mint az AT&T, a Yahoo és egyéb globális vállalatok.