Inhaltsverzeichnis:
Klinische Genomik ist ein faszinierendes Thema, in dem Menschen an den neuesten Technologien arbeiten, um schnelle und genaue Ergebnisse zu erzielen. Es gibt viele Genomsequenzierer auf dem Markt, die Petabytes an Sequenzdaten produzieren, und das Wachstum der Sequenzierung wird in naher Zukunft Exabytes an Daten produzieren. Hier ist Hadoop die perfekte Plattform für die Verarbeitung komplexer Genomics-Workflows. Hadoop kann riesige Informationsmengen speichern und sortieren sowie aussagekräftige Analysen durchführen. (Um eine Vorstellung davon zu bekommen, wie viele Daten dies wirklich beinhaltet, lesen Sie Informationen zu Bits, Bytes und ihren Vielfachen.)
Gegenwart und Zukunft der Genomik
Die Genomkartierung hat heute ihren Höhepunkt erreicht. Viele Menschen, die mit der Genomikbranche in Verbindung stehen, sind neugierig und da sich neue Möglichkeiten bieten, ist bessere Technologie das Gebot der Stunde. Die Genomsequenzierung ist eine sehr repetitive und ressourcenintensive Aufgabe. Alleine im Jahr 2013 wurden etwa 15 Petabyte an Daten erzeugt, und zwar nur von 2.000 Sequenzern. Diese atemberaubende Menge enthielt 300 KB sequenzierter Humangenomdaten. Bei dieser Datenproduktionsrate kann geschätzt werden, dass bis 2018 etwa ein Exabyte an Daten produziert werden wird. Dies ist auf das Wachstum der Sequenzer zurückzuführen, die pro Lauf immer mehr Daten produzieren. Ein weiterer Grund ist das Aufkommen extrem leistungsfähiger und kostengünstiger Genomsequenzierungsmaschinen. Seit 2008 ist der Preis dieser Maschinen stetig gesunken. Dies liegt an leistungsstarken Maschinen der nächsten Generation, die auf den Markt vorgedrungen sind.
Die Bedürfnisse der Genomkartierungsindustrie
Für die Verarbeitung der Daten, die aus dem menschlichen Genom stammen, werden komplexe Algorithmen verwendet. Dann müssen diese Informationen gespeichert werden. Es kann in Zukunft für den Vergleich mit den Originaldaten überprüft werden. Das Verarbeiten und Speichern von 100 GB Daten ist nicht allzu schwierig, besonders wenn Sie dies mit den leistungsstarken Maschinen tun, die in den Sequenzierzentren eingesetzt werden. Studien zeigen, dass diese Datenmenge in nur etwa 1.000 CPU-Stunden verarbeitet werden kann, was sehr einfach ist. Bei diesem technischen Fortschritt ist es offensichtlich, dass die Genomindustrie bald Tausende von Gigabyte in nur wenigen Sekunden verarbeiten wird.
