2006. január. 24. 11:53 hvg.hu Utolsó frissítés: 2006. január. 24. 11:55 Tech

A gigantikus genetikai adatbázis egymilliárd kereshető tételt tárol

A Wellcome Trust Sanger intézet „World Trace Archive” nevű, DNS-szekvenciákat nyilvántartó adatbázisának mérete nemrégiben elérte az egymilliárd rekordot.

DNS-spirál. Robot olvassa ki
a kódokat

Az Oracle adatbázis-technológiájára alapuló Trace Archive a világ tudományos közössége által felkutatott és közreadott összes génszekvencia gyűjteménye, amely tartalmazza a génkutatásban vezető Sanger intézet saját, hatalmas mennyiségű kutatási eredményeit is. A Cambridge határában található kutatási központ 850 alkalmazottat foglalkoztat, akik gigantikus mennyiségű adatot kezelnek.

Az archívumban tárolt adatok mennyiségéről tán mond valamit,ha egyetlen szövegsorban lennének leírva, az 250-szer körbeérné a Földet. Ha e szöveget A4-es papírlapokra nyomtatnák, a lapok kötegei két és félszer magasabbra tornyosulnának, mint a Mount Everest. Az archívum 22 terabájt nagyságú, és mérete minden hónapban megduplázódik: ez valószínűleg Európa, vagy talán a világ legnagyobb tudományos adatbázisa. Összehasonlításképpen: a British Library 13 millió tételt tartalmaz, az amerikai kongresszusi könyvtár 115 milliót, míg a Trace Archive egymilliárd különálló információs egységet tárol.

Szekvenciák és nyomok

Fluoreszkáló anyaggal jelölik meg a genetikai kód minden egyes „betűjét” (az úgynevezett bázisát) a DNS-szekvenciák meghatározásánál . A szekvenciát robotok olvassák ki, amelyek az egyes bázisokat a vörös, zöld, sárga vagy kék fluoreszcens fény mérési értékének csúcsaként érzékelik. A bázisoknak ez a leképezése a „nyom”.

Egy-egy ilyen nyers adatfájl nagyjából 200 KB méretű. A nyomot a robot szoftvere értelmezi, és hozzárendeli a megfelelő betűket (szaknyelven: „behívja” a bázisokat). A szekvenciát így kereshető karaktersorozattá alakítja. A közel egybillió karakterben történő kereséshez (egymilliárd rekord átlagosan 864 bázisról, továbbá néhány korábbi verziójú régebbi rekord) egyre gyorsabb programokra van szükség.

Az egyes genetikai adatrekordok átlagosan 864 karakter hosszúságúak. A tudósok a génszekvenciák között kereshetnek, és egymáshoz illeszthetik azokat a különböző élőlények (egerek, halak, legyek, baktériumok és persze az ember) teljes géntérképének összeállításához. Az adatok a világ bármely pontjáról korlátozás nélkül hozzáférhetők a génkutatók és szakemberek számára, akik egy adott betegség vagy gén tanulmányozása során könnyen letölthetik az adott területhez kapcsolódó már feltárt genetikai információt. Az egészség és a betegségek biológiai hátterét tanulmányozó tudományos és kereskedelmi szervezetek orvosbiológus kutatói aktívan használják ezeket az adatokat.

Martin Widlake, a Wellcome Trust Sanger intézet adatbázis-szolgáltatásokért felelős igazgatója elmondta, hogy: „A Trace Archive 22 ezer gigabájtos méretével a világ tíz legnagyobb UNIX-adatbázisa között van. Az adathalmaz növekedésével egyre nagyobb problémát jelent az adatok elérése. Az egész adatbázisból egy adott génszekvenciát előkeresni olyan, mintha egyetlen mondatot keresnénk a British Library anyagában, ami meglehetősen munkaigényes feladat. A Sanger intézet csapata mindamellett olyan új módszereken dolgozik, amelyek könnyebbé teszik az adatok keresését és elérését.”

Ezt a hatalmas mennyiségű adatot egy Oracle Database 10g adatbázis kezeli. A feldolgozott adatokat négy HP ES45 szerverből álló számítógép fürt tölti fel az adatbázisba. A Winter Corporation 2005-ös, adatbázisokról készült felmérése szerint (amely a világ legnagyobb adatbázisait sorolja fel) a Trace Archive az ötödik helyezést éri el olyan óriások mögött, mint az AT&T, a Yahoo és egyéb globális vállalatok.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

Musk beleszállt Trump nagy csinnadrattával bejelentett, 500 milliárd dolláros MI-fejlesztési tervébe

Trump IT-s szövetségesei máris nyertek a Csillagkapun

Donald Trump több százmilliárd dolláros fejlesztést jelentett be a mesterséges intelligencia terjedése érdekében

Tech ATV 2005. június. 02. 16:00

A gigantikus genetikai adatbázis egymilliárd kereshető tételt tárol

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

Musk beleszállt Trump nagy csinnadrattával bejelentett, 500 milliárd dolláros MI-fejlesztési tervébe

Trump IT-s szövetségesei máris nyertek a Csillagkapun

Donald Trump több százmilliárd dolláros fejlesztést jelentett be a mesterséges intelligencia terjedése érdekében

DNS-vadászattal kutatják az emberiség eredetét

A mobiltelefonok lerombolják a testi sejteket és károsítják a DNS-t

DNS-teszt döntött a kilenc anyajelölt között

DNS-vizsgálattal a cunami-túlélő kisgyermekért

Parancsolja a tekintélyt a legújabb 7-es BMW

Újabb játékost igazolt a Fradi, szerb szélső érkezik a csapatba

4iG: „Az nem jó, ha megmondják, hogy valakivel nem dolgozhatunk”

Nagy Márton: A főváros akkor vásárolhatja meg a Rákosrendezőt, ha az Emírségek megengedi

Habony-közeli cég vásárolta meg a Mini-Dubaj területére elővásárlási joggal bíró vállalkozást, 10 nappal az arabokkal aláírt szerződés előtt

Budapest nem kapja vissza a befizetett milliárdokat – mondja Sára Botond főispán

Orbán Viktor bejelentette a Jó Hírt: Magyarország nem jelent államcsődöt

Fel van adva a lecke a lakossági állampapír-tulajdonosoknak, hogy mit kezdjenek a rájuk zúduló pénzesővel

Egy új felmérés szerint a befektetők háromnegyede visszaválthatja a prémium állampapírját

Ukrán–magyar származású, befolyásos képviselő meghívására ment a Fidesz kampánystratégája Trump beiktatásakor Amerikába

A kormány a családokon spórolt, a reptérre szórta a pénzt. Így lett 4 ezer milliárd forint a hiány

Tényleg pénzeső hull mindjárt a magyarokra? És miért aggódhat a kormány emiatt?