Encyclopedie van de evolutiebiologie

Prof. Nico M. van Straalen (2019)

Gepubliceerd op 08-05-2020

Leesdiepte

betekenis & definitie

Gemiddeld aantal keren dat dezelfde nucleotidepositie in een genoom bij het bepalen van de sequentie gezien is

De leesdiepte “Engels: “sequencing depth”, ook wel “depth of coverage” is een belangrijke parameter van elk genoomproject en bepaalt in hoge mate de betrouwbaarheid van de uiteindelijke genoomassemblage.

Een genoom wordt uitgelezen door het eerst te fragmenteren en vervolgens van de brokstukken de nucleotidesequentie te bepalen. De grootte van de brokstukken (leeslengtes, Engels: “reads”) hangt sterk af van de gebruikte technologie. Bij Illumina-HiSeq-technologie wordt bijvoorbeeld uitgegaan van een leeslengte van 250 nucleotiden te lezen van beide uiteinden, terwijl met PacBio RSII een leeslengte van 10.000 baseparen gehaald wordt.

Gestreefd wordt naar redundantie, d.w.z. dat elke nucleotide in het genoom meerdere keren gezien is. Aangenomen wordt dat de fragmenten aselect getrokken zijn, zodat in principe elke nucleotide een gelijke kans maakt om in een gelezen stuk terecht te komen.

Stel de leeslengte is L, het aantal gelezen fragmenten is N en de lengte van het genoom (in bp) is G, dan is de leesdiepte:

c = (L N)/G

Deze formule werd als vuistregel voorgesteld door de Amerikaanse moleculair bioloog Eric Lander, een pionier op het gebied van de genoombiologie in de jaren 1990.

Een goede genoomassemblage heeft c = 30 tot 100. Maar het is belangrijk te bedenken dat de leesdiepte een gemiddelde is over het hele genoom. Als een positie gemiddeld 50 keer is gezien zullen er ook posities zijn die geen enkele keer gezien zijn, plus nucleotiden die honderden keren gelezen zijn. De eerste assemblage van het neanderthalergenoom in 2010 had bijvoorbeeld een leesdiepte van 1,2. Later kon men een waarde van 50 halen.