Cartographie du génome du Cannabis

Soft Secrets
20 Aug 2012

Le 18 août 2011, l'entreprise Medicinal Genomics - qui a un siège dans le Massachusetts - a publié la séquence - sans la traiter - du génome récemment cartographié du Cannabis Sativa. Elle est également sur le point de publier le génome du Cannabis Indica. Cet événement historique est destiné à avoir des implications à grande portée dans le champ des recherches sur le cannabis médicinal ainsi qu'à ouvrir la possibilité de contrôler la qualité de manière beaucoup plus précise. Cela apportera également de nombreux avantages aux cultivateurs pour la création de nouvelles variétés.


Le 18 août 2011, l'entreprise Medicinal Genomics - qui a un siège dans le Massachusetts - a publié la séquence - sans la traiter - du génome récemment cartographié du Cannabis Sativa. Elle est également sur le point de publier le génome du Cannabis Indica. Cet événement historique est destiné à avoir des implications à grande portée dans le champ des recherches sur le cannabis médicinal ainsi qu'à ouvrir la possibilité de contrôler la qualité de manière beaucoup plus précise. Cela apportera également de nombreux avantages aux cultivateurs pour la création de nouvelles variétés.

Le 18 août 2011, l'entreprise Medicinal Genomics – qui a un siège dans le Massachusetts – a publié la séquence – sans la traiter – du génome récemment cartographié du Cannabis Sativa. Elle est également sur le point de publier le génome du Cannabis Indica. Cet événement historique est destiné à avoir des implications à grande portée dans le champ des recherches sur le cannabis médicinal ainsi qu'à ouvrir la possibilité de contrôler la qualité de manière beaucoup plus précise. Cela apportera également de nombreux avantages aux cultivateurs pour la création de nouvelles variétés.

Kevin McKernan, directeur général de Medicinal Genomics (c. Medicinal Genomics)

L'étude de la génétique est une affaire complexe en elle-même. A première vue, cela semble incompréhensible pour quasi tout le monde. La plupart des gens se rappellent vaguement des notions de base apprises au cours de biologie du lycée mais ont beaucoup de difficultés pour en donner une explication décente. Soft Secrets va nous remettre à jour et nous expliquer pourquoi l'impact de ces recherches sur le cannabis est tellement important.

Kevin McKernan, directeur général de Medicinal Genomics, a un long parcours dans le développement et l'application de la technologie séquentielle. Il fait partie du projet de Génome Humain et fut responsable de la conception d'un nouvel instrument de laboratoire pour la méthode séquentielle SOLID lors de son étape chez Life Technologies, une entreprise prestigieuse dans le domaine de la biotechnologie. Dans son travail avec Medicinal Genomics, il a réussi à combiner ses talents professionnels avec l'opportunité unique offerte par le marché émergent du Cannabis médicinal et ainsi, lancer ses propres recherches.

On estime que ce projet aura un coût total d'environ 150.000 euros. Une somme qu'évidemment Kevin n'envisage pas de récupérer à travers l'autorisation d'utiliser les résultats, vu que le service informatique Amazon EC2 les a déjà publiés. Dans tous les cas, il ne semble pas que le financement futur posera un problème parce que ce projet – et ses résultats – ont éveillé d'énormes intérêts. Le nombre d'applications potentielles dans divers secteurs est inchiffrable et il reste encore beaucoup de travail pour interpréter toutes les données brutes et obtenir une structure génétique précise. Avec un impact initial tellement grand, cette jeune entreprise est convaincue que cela va encore faire les gros titres dans le futur.

A ce stade, il peut être pertinent de faire une brève présentation de la génomique. De manière très résumée, la génomique est la science de la recherche sur les génomes, une branche fortement spécialisée de la génétique. Le génome est le code génétique complet dont est composé un individu, ce qu'on appelle l'ADN. Chez la majorité des espèces, l'ADN forme des chromosomes qui contiennent autant de gènes que l'ADN non codé. Un gène est un segment d'ADN qui contrôle un trait héréditaire dans une espèce; un allèle est l'expression ou la variation de ce gène chez les individus de l'espèce.

L'ADN non codé peut représenter une large proportion du génome mais n'est pas codifié comme les gènes et on n'en connaît pas complètement les fonctions. Le nombre de chromosomes du génome diffère d'une espèce à l'autre: les humains en ont 46, le cannabis seulement 20. Le nombre de gènes contenus dans un chromosome varie également. L'ADN à proprement parler est un polymère biologique ou une macro-molécule répétitive composée de millions de sections appelées nucléotides. Ces sections sont constituées d'un sucre simple, d'un groupe de phosphates et d'une base d'azote (nucléobase). Cette base peut être d'un de ces quatre composants: adénine, guanine, thymine et cytosine. C'est au travers de milliards de permutations de ces quatre bases que toutes les espèces vivantes ont développé leur propre génome unique.

Amplification clonique de fragments d'ADN (c. Medicinal Genomics)
Les espèces qui se reproduisent sexuellement, comme l'être humain et le Cannabis Sativa, associent des paires de chromosomes: l'une héritée de l'ovule de la mère et l'autre correspondant au sperme du père (l'angiosperme ou le pollen dans le cas des plantes). Ces ensembles vont se combiner de manière aléatoire dans le processus de reproduction pour former une descendance génétiquement différenciée. Un embryon humain contient généralement une vingtaine de paires de chromosomes non sexuels (autosomes) et une paire de chromosomes sexuels (allosomes).

Le Cannabis Sativa ne possède que dix paires d'autosomes et une paire d'allosomes. Pour tracer la carte complète du génome d'une espèce à reproduction sexuée, il est nécessaire de séquencer tous les ensembles de chromosomes, y compris la version masculine et la version féminine des allosomes, ou de faire une analyse pour déterminer l'ordre exact des quatre bases nucléiques du polymère. L'ADN mitochondrial que contient le chloroplaste doit également être cartographié car il est différent de l'ADN chromosomique et a des fonctions spécifiques selon chaque espèce.

A ce jour, très peu de cartes de génomes complets d'espèces végétales importantes ont été publiées. Le Cannabis Sativa est unique car c'est la première plante qui a été séquencée à l'origine pour sa valeur médicinale. Les autres génomes connus sont ceux de plantes modèles ou d'huiles et d'aliments. La plante médicinale Artemisia Annua a été séquencée précédemment pour mieux comprendre les séquences enzymatiques de la substance anti-malaria de l'Artemisia. Le cycle de culture de cette plante est beaucoup plus long que celui du cannabis et ne contient qu'un seul composant à valeur médicinale. Le cannabis contient 85 cannabinoïdes et potentiellement des centaines de terpènes de valeur thérapeutique, ce qui en fait une plante à valeur potentiellement thérapeutique bien plus importante.

Images d'un séquenceur de seconde génération: des milliards de groupes d'ADN sont représentés sur une lame de verre. Les couleurs indiquent A, T, C, G.

Medicinal Genomics prétend séquencer dans le futur le génome de nombreuses plantes bénéfiques – mais pourquoi est-ce que le cannabis fut leur premier choix? Le directeur Kevin McKerman connaît le sujet par un article qu'il a lu dans Nature Reviews et il en a compris la valeur potentielle: non seulement la demande pour du cannabis médicinal augmente à un rythme de 50% par an aux Etats Unis mais en plus, l'éventail de traitements et d'applications possibles du cannabis et de ses dérivés n'ont aucun rival dans la nature.

En outre, son importance comme culture alimentaire est incontestable et augmente au fur et à mesure que le marché s'étend. Encore une fois, son potentiel en tant que biocombustible, au moment où les Etats Unis et d'autres pays développés étendent leur production de bioéthanol à un rythme sans précédent, pourrait se consolider dans le commerce global futur.

Les variétés de cannabis sont très différentes génétiquement et doivent être séquencées séparément – mais cela ne pourrait trop tarder étant donné l'intérêt général pour la culture. La possibilité de créer de nouvelles variétés chaque fois mieux adaptées à sa destination sera très avantageuse. Connaître la structure génomique des variétés utilisées permettra de proportionner les bases pour la sélection des parents grâce à quoi on pourra prévoir avec plus de précision le profil nutritif et les cannabinoïdes de la descendance.

En fonction de la complexité du génome et du degré de variation possible entre les individus et les variétés de l'espèce en question, on pourra utiliser diverses techniques pour séquencer les données génomiques. Les chercheurs de Medicinal Genomics ont commencé en utilisant une technologie de séquençage de courte-lecture qui analyse les segments courts de l'ADN (aux alentours de 200 paires de bases) et réunit les résultats pour obtenir une image complète. Cependant, cette méthode ne se montre pas très efficace pour mettre en relief la complexité du code génétique et il faudra dès lors des fragments plus grands.

Un triple rétrocroisement de L.A. Confidential est le premier génome publié (photo de Pistils)

La technologie utilisée pour obtenir les résultats définitifs, la plateforme GS-FLX, est une technologie de séquençage de la prochaine génération qui lit l'ADN en fragments allant jusqu'à une longueur de 750 paires de bases. Elle peut réaliser 49,5 millions séquences, chacune avec une longueur d'environ 630 paires de bases. Une quantité aussi petite que 3 microgrammes d'ADN génomique obtenue de n'importe quel type d'organisme est suffisante pour réaliser une séquence.

La purification de l'ADN se fait dans une entreprise à Amsterdam qui a réalisé le séquençage à proprement parler en utilisant une technologie très rentable également utilisée par des instituts de recherche, y compris le laboratoire 454 Life Science de Roche. Les variétés utilisées ont été obtenues par la collaboration avec DNA Genetics, la banque de semences d'Amsterdam qui a mené des programmes de culture spécialement pour ce projet.

Pour le séquençage du génome Indica, ils ont utilisé la L.A. Confidential avec un triple rétrocroisement. Un spécimen rétrocroisé est la descendance d'une plante et de sa progéniture qui est créée pour consolider une caractéristique au sein d'une variété ou encore pour éliminer les conséquences indésirées du croisement précédent. Le rétrocroisement double ou triple saute des générations pour croiser un spécimen avec ses grands-parents ou arrière-grands-parents. Avec le triple rétrocroisement de la variété L.A., les obtenteurs ont cherché à créer un phénotype très ressemblant génétiquement à ses ancêtres, les Indicas pures.

Pour le génome Sativa, ils ont utilisé un hybride de Sativa Chemdawg. C'est une variété qui a beaucoup de valeur en médecine et qui, malgré ses ancêtres Indicas, a des effets cérébraux et de nombreuses caractéristiques Sativas. Medicinal Genomics travaille également avec la Greenhouse Seed Company pour la recherche de variétés locales à haute teneur en CBD et des variétés de Ruderalis.

Gros plan de trichomes de L.A. (photo de Pistils)
Le séquençage Sanger est la méthode utilisée par le Projet de Génome Humain. Pour purifier l'ADN et éliminer la matière organique excédante, l'échantillon est rompu mécaniquement afin de séparer les chromosomes en plusieurs brins qui les composent par un processus connu sous le nom de réaction de polymérisation en chaîne (PCR). La polymérisation fait référence à diverses enzymes qui permettent la réplication et la réparation de l'ADN en catalysant les connexions des nucléotides dans un ordre spécifique et en utilisant une seule chaîne courte d'ADN comme modèle. La PCR combine la polymérisation avec un moule artificiel pour créer de multiples exemples de la même chaîne, chaque segment étant identique – excepté une différence de longueur d'un nucléotide.

Après, la base finale de chaque fragment est teinte avec une couleur fluorescente pour des raisons d'identification, et les bases sont séparées et organisées par un processus d'électrophorèse en gel (dans lequel les particules se dispersent dans un fluide qui les forcent à migrer par une décharge électrique). Les bases nucléiques teintes voyagent une à une à travers le gel en passant par un rayon laser qui se transforme en une longueur d'onde lumineuse distincte en fonction du type de base. Ensuite, le rayon est dirigé sur un spectrographe muni d'une lentille et est lu avec un système de caméra CCD. L'ordre dans lequel les différentes couleurs sont enregistrées détermine l'ordre original des bases nucléiques dans le polymère de l'ADN. De cette manière, on reconstruit les chromosomes dans leur forme d'origine, ce qu'on appelle l'assemblage du génome.

Deux méthodes de Séquençage de Seconde Génération différentes, appelées Séquençage par Synthèse, ont été utilisées pour cartographier le génome du Cannabis Sativa. Le Pyroséquençage de Roche/454 utilise la PCR (comme le séquençage Sanger cité plus haut) mais avec une version massive en parallèle appelée PCR d'émulsion (eau et solution huileuse). Le génome est fragmenté en 700-1000 fragments de bases qui se modifient pour obtenir la même séquence d'ADN dans les terminaisons et sont immergées dans une émulsion avec d'autres particules qui contiennent des séquences de séquences du modèle. L'émulsion qui ressemble à une vinaigrette, isole une molécule d'ADN au sein d'une goutte d'eau en utilisant une PCR entourée d'une substance huileuse. On obtient cette unique molécule par goutte par simple dilution: de fait, la majeure partie des gouttes sont vides et très peu contiennent une seule molécule d'ADN.

Chacune des milliards de gouttes va contenir une molécule d'ADN et d'autres particules différentes. Une "photocopieuse" qui copie les molécules d'ADN dans les gouttes de l'émulsion amplifie efficacement le signal que nous attendons dans le processus de séquençage. Quand l'ADN s'est ajouté aux particules, on obtient une lame avec des millions de cellules adossées à une caméra CCD. La luciférase (une enzyme lumineuse) produit une lumière que la caméra peut mesurer chaque fois qu'une des quatre lettres de la solution rencontre la puce.

Quand on renverse l'adénosine dans la puce, toutes les gouttes qui contiennent un T comme lettre suivante dans le brin d'ADN créent une lumière que la caméra peut mesurer. La puce se lave et le processus se répète avec les trois autres bases. Les brins d'ADN sont cultivés avec des polymères et des bases ajoutées séquentiellement. Ce processus se répète 500 fois pour chacune des quatre bases jusqu'à atteindre plus de 700 bases de séquence. Cela prend environ 24 heures pour aboutir.

L.A. Confidential en pleine floraison (photo de DNA Genetics)
Le séquençage par synthèse est très différent et utilise une PCR de pointe. Il donne comme résultat moins de molécules d'ADN et par conséquent une longueur de lecture de l'ADN plus courte. Il requiert également différents mécanismes de détection, comme les lasers et les colorants fluorescents, mais permet une plus grande précision du séquençage – particulièrement avec des tronçons de séquence appelés homopolymères (des tronçons longs de la même lettre) comme AAAAAAAATTTGGG.

Le résultat a donné une séquence de 131 millions de bases – de beaucoup supérieures aux 157 millions obtenus avec la plante modèle Arabidopsis thaliana, une espèce de plante à fleurs, et les données nécessitent une interprétation plus profonde pour définir la dimension véritable du génome complet. On peut espérer que le Cannabis Sativa montrera une complexité génétique plus importante que la thaliana qui appartient à un type de plantes relativement simple. Au contraire, le Cannabis possède des systèmes hautement développé dont le plus évident est la production de cannabinoïdes.

La variation génomique entre les différents échantillons examinés fut de plus d'1%, ce qui est dix fois plus que ce qu'on voit chez les humains – la capacité d'exprimer des génotypes très différents en gardant la capacité de se croiser entre elles est une des raisons pour lesquelles la plante de cannabis est une espèce tellement adaptable et qu'elle se développent sous des formes tellement différentes.

Même s'il faudra encore de nombreuses recherches et interprétations pour arriver à séquencer complètement le génome qui permettra d'étudier la plante sans avoir besoin de spécimen physique, ces études vont lever le voile sur de nombreuses questions restées sans réponse depuis longtemps comme la nature et la fonction exacte des cannabinoïdes ainsi que la complexité de la reproduction sexuée, pour n'en citer que deux.

Par exemple, en utilisant les données génomiques pour déterminer l'emplacement et la fonction exacte des gènes qui contrôlent le sexe futur au sein des chromosomes, on pourrait résoudre de nombreuses questions de manière précise comme par exemple quand on laisse plusieurs semaines de plus que le temps normal aux femelles et qu'elles produisent des graines génétiquement identiques, c'est un effort pour conserver le génotype. A l'inverse, pour de nombreux cultivateurs traditionnels, ces programmes seront appréciés pour éliminer complètement les tendances hermaphrodites. Mais le plus importante sans doute, la question la plus fondamentale, sera la fonction des cannabinoïdes et de leur relation exacte avec notre propre système endocannabinoïde.

Des graines couvertes de trichomes sur la L.A. (photo de DNA Genetics)
La publication des données génomiques va inévitablement soulever des questions éthiques. La modification génétique des cultures reste un sujet controversé car malgré les implantations étendues, il reste des questions sans réponse concernant ses effets sur l'écosystème dans lequel on les introduit. Pour les cultivateurs d'intérieur, le problème est moins important mais il est très grand pour ceux qui cultivent à l'extérieur à grande échelle car cela pourrait être préjudiciable pour la biodiversité. Quand on traite d'un sujet aussi complexe que celui de la chimie organique, il est très difficile de prévoir l'effet qu'une seule modification peut avoir sur les interactions normales entre différents éléments au sein d'un écosystème.

La question de savoir si la reproduction sélective est meilleure que la modification génétique pour obtenir une caractéristique désirée est difficile à résoudre. Les projets de reproduction peuvent générer des résultats très rapidement au travers d'une sélection attentive de phénotypes spécifiques; développer des variétés en contrôlant les modèles génétiques peut prendre plus de temps mais le résultat finale sera mieux contrôlé. 

Cependant, les implications des récentes publications des données génomiques ont une bien meilleure portée que celle des programmes de modification génétique. Le précédent créé par l'équipe de Medicinal Genomics en mettant à la portée de tout le monde ses données pourrait en inciter d'autres à faire la même chose. Il faudra sans aucun de nombreux compromis pour accomplir la prochaine étape de ce projet. Si l'équipe publie l'application qu'elle a prévu par iPhone, cela permettra aux usagers d'ajouter des annotations génomiques aux données séquencées, ce qui apportera une aide importante à la communauté scientifique.

La génomique fonctionnelle est la branche qui utilise les résultats du projet génome pour évaluer les interactions entre les protéines et des gènes spécifiques, et leur expression dans le phénotype. C'est la partie la plus lente de la recherche. Les données génomiques brutes du Projet de Génome Humain ont été publiées pour la première fois en 2001 et n'ont pas été déclarées "complètes" (tous les chromosomes cartographiés et chaque gène des chromosomes identifié et localisé, sans erreurs) avant 2003.

Après l'assemblage, le génome doit être annoté – c'est-à-dire que les régions contenant des gènes spécifiques doivent être localisées et que les informations biologiques relevantes soient ajoutées aux données stockées électroniquement. L'annotation du génome se poursuit encore à ce jour pour le génome humain parce que le nombre total d'expressions différentes des milliers de gènes qu'il contient est incroyablement élevé et nécessite le traitement d'experts pour être décrit. Pour évaluer l'impact d'un gène spécifique, il faut éliminer ou brouiller les gènes dans le génome et observer l'effet sur le phénotype résultant. Ce processus a permis aux chercheurs d'identifier diverses fonctions génétiques clés chez les humains et apporter un éclairage sur divers désordres et leurs causes.

Une fois le génome annoté, les données peuvent être utilisées de nombreuses manières – pour déterminer le degré de similitude ou pour identifier les gènes responsables de fonctions similaires (et comment ils se différencient) entre espèces et variétés; pour étudier l'évolution d'une espèce, son ascendance et son modèle de développement, et comment il s'emboîtent dans le système taxinomique; pour terminer, pour apporter une autre pièce à ce puzzle incroyablement vaste qu'est l'évolution dont les racines sont les protozoaires des premiers jours de la terre et dont les branches se comptent par millions.

Du cannabis manipulé génétiquement? Une simple reproduction pour cette "Fraise" suisse (photo de David Dee).

La génomique comparative étudie en particulier la variation entre différents génomes et est importante pour comprendre à quelles pressions les mutations répondent et comment s'établit la divergence. Elle est également utilisée pour étudier les mutations adverses qui peuvent survenir et fournit à l'être humain de nombreuses informations sur la nature des cancers et pourquoi ils apparaissent.

Les avancées des recherches génétiques ont apporté des connaissances importantes sur la nature et l'importance de la plante de Cannabis et la publication du génome du Cannabis ainsi que la recherche qui s'est mise en marche sont destinées à impulser fortement notre compréhension globale de ce thème. Pas seulement ça, cela envoie également au public un message clair: le cannabis est une plante médicinale qui vaut la peine d'être prise sérieusement en considération et il faut que la communauté académique le reconnaisse. Dans le futur, les gouvernements réfractaires du monde se verront obligés de faire la même chose. Le soutien de sources crédibles et respectées comme Kevin McKernan et son équipe est vital pour l'issue du mouvement et méritent les applaudissements qu'ils reçoivent pour leur travail extraordinaire.

Nous remercions donc particulièrement Kevin McKernan pour ses apports.

S
Soft Secrets