Encyclopedie van de evolutiebiologie

Prof. Nico M. van Straalen (2019)

Gepubliceerd op 03-10-2020

Genoomassemblage

betekenis & definitie

Door computerprogramma’s uitgevoerd proces waarin gelezen brokstukken van het erfelijk materiaal samengesteld worden tot zo lang mogelijke continue eenheden

Een genoom wordt uitgelezen door het eerst te fragmenteren en vervolgens van de brokstukken de nucleotidesequentie te bepalen. Dit leidt tot een groot aantal sequenties, waarvan de lengte afhangt van de gebruikte technologie. Bij het uitlezen streeft men naar redundantie d.w.z. dat elke positie meerdere malen is gezien en in meerdere brokstukken voorkomt. De leesdiepte is het gemiddeld aantal keren dat een willekeurige positie is gezien (Engels: “sequencing depth”, “depth of coverage”).

Dan wordt de genoomsequentie samengesteld (Engels: “genome assembly”) door te kijken naar overlappende stukken en die aan elkaar te “plakken”. Om zekerheid te hebben over de juiste assemblage is het belangrijk dat de overlap in meerdere leeslengtes voorkomt. Er zijn veel verschillende bioïnformatische algoritmes om de assemblage uit te voeren. Een vaak gebruikte techniek is om alle k-mers, d.w.z. deelsequenties van lengte k, op te sporen en daar een alignment van te maken met k-1 overlap (een zogenaamde De Bruijn-grafiek).

De assemblage leidt tot een aantal grotere stukken DNA-sequentie die niet verder meer aan elkaar te zetten zijn. Deze stukken noemt men contigs. De kwaliteit van de assemblage blijkt uit de mediane grootte van een contig, aangegeven met N50, en het aantal contigs, dat kan variëren van 10.000 tot 100. Een geassembleerd genoom met 100 contigs is extreem goed. Het minimumaantal contigs is gelijk aan het aantal chromosomen; dan spreekt men van volledige “sluiting” van het genoom, maar dat wordt alleen gehaald bij organismen met kleine genomen (virussen, bacteriën) en enkele modelsoorten (C. elegans, Drosophila). Daarvoor is nog aanvullend werk nodig (“gaten dichten”).