Bienvenue aux Mines Paristech
Bienvenue à MINES ParisTech
Newsletter International
Website
Théorie & Pratique
Vous êtes

rechercher
un événement

choisissez une date

Partager

Le 7 mai 2021

Soutenance de thèse de Romain MENEGAUX

Représentations pour l'apprentissage statistique à grande échelle en génomique

Soutenance de thèse de Romain MENEGAUX

Résumé de la thèse en français

Le coût du séquençage de l'ADN a été divisé par 100 000 en seulement 15 ans. Grâce à cette révolution technologique, des volumes de données de plus en plus grands arrivent de domaines variés, posant de nouvelles problématiques informatiques. Comment analyser et stocker les séquences d'ADN de manière efficiente? Un domaine ayant grandement bénéficié de cette avancée est la métagénomique, qui cherche à caractériser et identifier les microbes -- bactéries, virus -- en séquençant puis analysant leur ADN. Or le résultat d'une expérience de séquençage se compte en milliards de petits fragments d'ADN (reads), mélangés aléatoirement. Une étape cruciale en bioinformatique est d'identifier le génome d'origine de chacun de ces fragments, problème dit du taxonomic binning. Jusqu'à récemment, les méthodes étaient basées sur l'alignement des séquences à des génomes de référence. Le nombre de ces génomes augmentant, ces méthodes d'alignement sont devenues trop lentes et on laissé place à un nouveau standard: le pseudo-alignement. Celui-ci consiste à chercher des sous-séquences du read dans une base de donnée constituée au préalable.

Résumé de la thèse en anglais

The cost of DNA sequencing has been divided by 100,000 in the past 15 years. Brought along by this technological revolution, ever larger volumes of data are coming in from diverse fields and problems, raising new computational challenges. How can we efficiently store and analyze DNA sequences? A modern DNA sequencing experiment outputs billions of short DNA fragments (reads), in random order. A crucial step in the bioinformatics analysis pipeline is to match those fragments to their parent genomes, a problem called taxonomic binning. Up until a few years ago alignment-based strategies were the norm, which were largely based on string-matching algorithms. However these have become too slow for the ever-growing amount of available sequenced genomes. More recently so-called pseudo-alignment strategies have become standard. These hold databases of large sub-strings and look for matches in the query sequences. Machine learning methods have shown promising success in classifying biological sequences and in this thesis we will investigate these methods for taxonomic binning. Firstly, we present an algorithm, fastDNA{}, that embeds sequences in a continuous vector space by first splitting them into short kmers{} (substrings of length $k$) and learning an embedding for each kmer{}. The embedding is then run through a linear classifier. In the second part of this thesis we will present Brume{}, an extension to fastDNA{} that allow for longer k-mers, using the de Bruijn graph. Finally we will introduce Phylo-HS, a structured loss for neural network-based taxonomic classification.

 

Titre anglais : Continuous embeddings for large-scale machine learning in genomics
Date de soutenance : vendredi 7 mai 2021 à 14h00
Adresse de soutenance : 60 Boulevard Saint-Michel, 75272 Paris - Zoom
Directeur de thèse : Jean-Philippe VERT

> plus d'informations sur le site dédié Soutenance de thèse de Romain MENEGAUX - MINES ParisTech

actualité

EXPERCRISE-Covid-19 : 4 questions à Brice Laurent, sociologue

International EXPERCRISE-Covid-19 : 4 questions à Brice Laurent,… « Quels sont les éléments qui assurent la crédibilité et la…
> En savoir +

DigiTraining lance un appel aux musées européens

International DigiTraining lance un appel aux musées européens Innover grâce aux nouvelles technologies Le consortium…
> En savoir +

EcorcAir et les platanes du Quartier latin

Formation EcorcAir et les platanes du Quartier latin Vendredi 2 avril 2021, dernier jour de cours, en présentiel,…
> En savoir +

Rentrée 2021 du MS MSIT (Mines - Dauphine)

Formation Rentrée 2021 du MS MSIT (Mines - Dauphine) La nouvelle promotion MS MSIT aura sa rentrée le lundi 12…
> En savoir +

Félicitations à Rabab Akkouche

Formation Félicitations à Rabab Akkouche 16 candidats étaient en lice, dont 10 doctorants et docteurs…
> En savoir +

+ Toutes les actualités

webTV

Lecture

Conférence éthique et intelligence artificielle : Elise Berlinski

Lecture

Certificat exécutif : digital native, 3 questions à...

Lecture

Carlos Adrian Correa Florez, MINES ParisTech PhD, PERSEE center

Lecture

Certificat exécutif : digital native, 3 questions à...

Lecture

Lancement de la Chaire industrielle ANR TOPAZE

+ Toutes les vidéos

Plan du site
MINES
ParisTech

60, Boulevard Saint-Michel
75272 PARIS Cedex 06
Tél. : +33 1 40 51 90 00

Implantations
Mentions légales | efil.fr | ©2012 MINES ParisTech | +33 1 40 51 90 00 |