=====Séminaires des doctorants=====
Lieu : Bât. I.B.G.B.I., 23 Bd. de France, en salle de séminaire du 4ème étage.\\
Quand : le mardi à 14h00.\\
Organisateurs : Claire Alamichel, Kylliann De Santiago, Liudmila Pishchagina, Gaston Vergara-Hermosilla.\\
Le séminaire reprendra à la rentrée.
**Séminaires passés**
**Invité** : Claire Alamichel
**Date** : 18 juin 2024
**Titre** : Modélisation de la motilité cellulaire et simulations numériques.
Résumé : Après avoir présenté le contexte biologique de la motilité cellulaire, je présenterai une modélisation pour ce phénomène biologique qui prend en compte le noyau de la cellule.
Je présenterai un schéma numérique permettant de réaliser des simulations numériques du modèle. Je présenterai ensuite des résultats numériques permettant de mettre en avant le rôle du noyau dans la dynamique de la cellule et sur les trajectoires.
**Invité** : Perrine Chassat
**Date** : 7 mai 2024
**Titre** : Analyse de Données Fonctionnelles et Analyse de Formes dans le cadre de Frenet-Serret : Application à l'Analyse de Trajectoires de Mouvement de Langue des Signes.
Résumé : Cette thèse vise à déterminer le cadre mathématique le plus adapté et des descripteurs pertinents pour l'analyse des trajectoires de mouvement en langue des signes. En nous appuyant sur les principes du contrôle moteur, nous avons identifié le cadre défini par les formules de Frenet-Serret comme particulièrement pertinent pour cette tâche. Ainsi, en introduisant de nouvelles approches d'analyse de courbes basées sur le cadre de Frenet, cette thèse contribue au développement de nouvelles méthodes dans les domaines de l'analyse de données fonctionnelles et de l'analyse de forme. La première partie de ce travail aborde le défi de l'estimation lisse des paramètres de courbures de Frenet, en traitant le problème comme une estimation de paramètres d'une équation différentielle dans SO(d), (d >= 1) . Nous introduisons un algorithme EM fonctionnel qui définit une méthode d'estimation unifiée des variables dans le groupe SE(3), fournissant des estimateurs lisses, plus fiables et robustes que les méthodes existantes. Dans la deuxième partie, deux nouvelles représentations des courbes lisses dans R^d sont introduites, dont la Square Root Curvatures (SRC) transform, établissant un nouveau cadre géométrique riemannien qui utilise les informations géométriques d'ordre supérieur et dépend de la paramétrisation, surpassant alors la représentation state-of-the-art Square-Root Velocity Function (SRVF) sur des résultats synthétiques. Étant donné une collection de courbes, ce type de géométrie nous permet de définir des critères statistiques efficaces pour estimer les formes moyennes de Karcher sur les espaces de formes riemanniens associés, qui se révèlent particulièrement performants sur des données bruitées. Enfin, ce cadre développé ouvre la voie à des applications plus pratiques dans le traitement de la langue des signes, comprenant l'étude des lois puissances sur nos données et le développement d'un modèle génératif pour le mouvement d'un point en langue des signes.
**Invité** : Ludivine Obry
**Date** : 19 mars 2024
**Titre** : Procédures de tests multiples avec pondérations dans les études d’association pangénomiques
Résumé : Avec le développement récent des technologies de séquençage, il est aujourd’hui possible de réaliser des études d’association pangénomiques (GWAS) à très large échelle. Dans ce contexte, l’approche standard consiste à tester chaque marqueur génétique individuellement. Afin de limiter le nombre de faux positifs, des procédures de tests multiples visant à contrôler un risque d’erreur global sont appliquées. Cependant, les approches classiques sont limitées, d’une part, par le fait que la sélection initiale ne tire pas parti des informations a priori et des connaissances d’experts, d’autre part, par la difficulté à identifier des variants rares qui peuvent pourtant avoir des effets importants. L’incorporation de pondérations dans les procédures de tests multiples peut alors être une solution. Dans ces travaux, différentes procédures de tests multiples avec pondérations dans le contexte spécifique des GWAS ont été évaluées. Une approche originale permettant d’améliorer la puissance de détection des variants rares tout en maintenant une bonne puissance globale a également été introduite. Les différentes procédures ont été évaluées à travers une étude de simulations dont les résultats montrent les bonnes performances de l’approche développée par rapport aux procédures existantes. Les différentes méthodes ont été appliquées à un jeu de données réelles.
**Invité** : Gaston Vergara-Hermosilla
**Date** : 9 janvier 2024
**Titre** : Quelques nouvelles idées en mécanique des fluides
Résumé : Dans cet exposé nous présenterons quelques résultats récemment obtenus sur l'existence, l'unicité et la régularité des solutions de certaines équations non linéaires apparaissant en mécanique des fluides. La exposé débutera par une présentation des éléments de base avec lesquels nous développerons nos idées, puis procédera à la démonstration des théorèmes.
**Invité** : Paulin Aubert
**Date** : 5 décembre 2023
**Titre** : Résolution de problèmes de contrôle stochastique par apprentissage par renforcement
Résumé : De nombreux problèmes de la finance quantitative requièrent la résolution de problèmes de contrôle stochastique. En l'absence de solutions explicites, il est possible d'estimer les solutions de ces problèmes au moyen de méthodes qui rencontrent rapidement des limitations avec l'augmentation de la dimension. L'apprentissage automatique se présente comme une solution naturelle pour pallier à cette difficulté, souvent désignée sous le terme de "curse of dimensionality". Dans cette présentation, nous introduisons la méthode numérique élaborée pour résoudre les problèmes de contrôle stochastique. Fondée sur l'apprentissage par renforcement, cette méthode nous permet de retrouver les résultats théoriques énoncés par M. Jeanblanc-Picqué et A. N. Shiryaev en 1995, et démontre des performances convaincantes lorsque le problème se complexifie et que la solution explicite demeure inconnue.
**Invité** : Arnaud Liehrmann
**Date** : 14 novembre 2023
**Titre** : Multiscale analysis of transcriptome: methodological and algorithmic developments
Résumé : My work can be divided into two main parts. First, I have designed tools dedicated to the differential analysis of the transcriptome. Second, I have developed and applied multiple changepoint detection methods for genomic datasets.
The remarkable diversity of RNA isoforms, besides alternative transcription initiation sites, is primarily attributable to post-transcriptional modifications. These alterations span an array of events that can occur along RNA molecules including splicing, processing, alternative polyadenylation, editing, and base modification. The advent of high-throughput transcriptomics has catalyzed an unprecedented understanding of this diversity. However, the analysis of such data presents substantial statistical, computational, technical, and biological challenges.
I actively contributed to the development of two methods, DiffSegR and comaturationTrackeR, dedicated to the differential analysis of transcriptomes. These methods are built to alleviate the complications arising from studying, often unannotated, individual isoforms, focusing instead on event-by-event or pairwise analyses. DiffSegR empowers the identification of transcriptome-wide expression differences across two biological conditions using RNA-Seq data. With the integration of a multiple changepoint detection algorithm, it precisely delineates the boundaries of differentially expressed regions/events, eliminating the necessity for prior annotations. On the other hand, comaturationTrackeR, utilizing long-read RNA-seq data, is tailored for the detection of transcriptome-wide co-maturations—dependencies between pairs of maturation events such as editing and splicing. Crucially, both methods are integrated with the DESeq2 statistical framework. This inclusion allows for rigorous testing of expression differences and co-maturations. Furthermore, these methods have been intuitively encapsulated into R packages, ensuring user-friendliness for both biologists and bioinformaticians. The output from these packages is designed to create IGV (Integrated Genome Viewer) tracks and/or Bioconductor objects. These approaches have proven their effectiveness through practical applications on the transcriptomes of chloroplasts, mitochondria, and bacteria. Importantly, many of the findings have been validated molecularly. This includes a published list of co-matured events within the chloroplast of Arabidopsis thaliana, an comprehensive list of 3' and 5' termini extension of transcripts, as well as the accumulation of antisense RNA and introns from two A. thaliana mutants for chloroplast ribonucleases—Mini-III and PNPase. It also includes potential candidates for direct degradation by Rae1 in Bacillus subtilis.
Another facet of my thesis involves the development and application of multiple changepoint detection methodologies on genomic datasets. The popularity of these models in genomics stems from their inherent capability to reveal unannotated biological events along the genome, such as expression differences resulting from splicing variations (as exemplified in DiffSegR). Various dynamic programming algorithms aimed at maximizing a penalized likelihood have been proposed over the years. These algorithms and the contrasts they optimize display remarkable computational and statistical properties, with their speed performance being a rationale for their use with genomic data. Building upon this line of research, I have designed and implemented an exact and efficient dynamic programming algorithm, Ms.FPOP. This algorithm optimizes a least squares criterion and incorporates a multiscale penalty, which has been demonstrated to possess superior statistical properties compared to the standard least squares criterion with a bayesian information criterion. Ms.FPOP employs functional pruning techniques to accelerate the computation time from quadratic (the best-known algorithmic speed so far) to on average log-linear relative to the length of the signal. Ms.FPOP is implemented in C++ and is interfaced with R for user-friendly access. I have conducted extensive testing of Ms.FPOP across a wide variety of simulated scenarios, and the results have been promising. Concurrently, I have applied multiple changepoint detection algorithms to genomic datasets, and observed that these methods improve the current state-of-the-art methods for detecting differentially expressed regions in RNA-Seq data and peaks in ChIP-Seq data.
**Invitée** : Assia Benmehdia
**Date** : 6 juin 2023
**Titre** : Analysis of the genomic structure of Drosophila melanogaster : is the evolution of duplicated genes related with their environment in transposable elements?
Résumé : Within genomes, duplicated genes (paralogs) are formed by different mechanisms such as the complete duplication of the whole genome, the action of transposable elements (TEs), segmental duplications, and tandem duplications (1). These genes, after duplication, can be subjected to various evolutionary processes allowing their maintenance or their loss (acquisition of a new function (neo-functionalization), sharing of the ancestral function (sub- functionalization), pseudogenization, functional redundancy by dosage effect) (1). Duplicated genes constitute families of genes and are of great importance in the formation of new genes and in creating genetic novelty in organisms. Many new gene functions have evolved through this mechanism. However, the processes allowing the maintenance of duplicated genes within genomes remain poorly understood. In particular, little is known about the influence of TEs at this level. TEs are repeated sequences that have the ability to move within the genome. They are now recognized as having a significant impact on the evolution of genomes and the adaptation of species (2). In the model species Drosophila melanogaster, it has been shown that duplicated genes constitute around 40% of all genes (1), the majority of which are thought to be the result of tandem duplications (3). The most recent duplicated genes seem more often subject to the neo functionalization mechanism (4) and their functions are mainly linked to responses to environmental stresses (5). Within this genome, we find around 15% of TEs, the distribution of which is not random (6). We can therefore wonder about the importance of TEs in the maintaining of the different families of genes in this species.
(1) Zhang. Trends Genet. 2003
(2) Bourque et al. Genome Biol. 2018
(3) Zhou et al. Genome Res. 2008
(4) Assis and Bachtrog. PNAS 2013
(5) Zhong et al. BMC genomics 2013
(6) Adams et al. Science 2000
**Invité** : Kylliann De Santiago
**Date** : 25 mai 2023
**Titre** : Mixture of stochastic block models for multiview clustering
Résumé : In a complex problem, networks are generally used, because of their efficiency in describing relationships. It often happens that these networks come from different sources of information, which do not necessarily bring the same knowledge. In this work, we propose an original method for aggregating multiple clustering coming from different sources of information. Each partition is encoded by a co-membership matrix between observations. Our approach uses a mixture of Stochastic Block Models (SBM) to group co-membership matrices with similar information into components and to partition observations into different clusters, taking into account their specificities within the components.
**Invitée** : Liudmila Pishchagina
**Date** : 9 mai 2023
**Titre** : Geometric-Based Pruning Rules For Change-Point Detection in Multivariate Time-Series
Résumé : We study multiple change-point detection problems for multivariate independent time-series by pruned dynamic programming algorithms optimizing a penalized likelihood. When the number of changes is proportional to the data length, an inequality based pruning rule (as in PELT) leads to a linear time complexity. Another method, called functional pruning, gives a close-to-linear time complexity whatever the number of changes is, but only for univariate models. Functional pruning works by updating the set of parameter values for which a change is optimal. As soon as this set is empty the change is pruned. In dimension p = 1, this set is a union of intervals in R that is easy to describe and update. When the dimension p is greater or equal to 2, this set can be non-convex and unconnected because it is obtained as the intersection and difference of sets in R^p. This complicates the implementation of pruning. We propose an extension of functional pruning using simple geometric shapes (balls and rectangular parallelotopes) for some multivariate parametric models (Gaussian, Poisson, Negative Binomial). In a simulation study we empirically assess the efficiency of our geometric-based pruning rule and show that it is faster than PELT when the dimension p is less 5.
**Invité** : Mathis Fitoussi
**Date** : 11 avril 2023
**Titre** : Estimées de noyaux de la chaleur pour des EDS stables avec une dérive singulière
Résumé : On s'intéresse à l'EDS $\mathrm{d} X_t = b(t,X_t) \mathrm{d}t + \mathrm{d} Z_t \quad (E)$, où la dérive $b$ est fortement irrégulière (une distribution, par exemple) et le bruit $Z_t$ est un processus stable. Pour ce type d'équations, il a été prouvé que le bruit peut restaurer une forme d'existence et d'unicité de la solution. Cet exposé est une introduction aux dérives singulières, aux différentes définitions de solution compatibles avec l'équation $(E)$ et à la manière dont elles sont traitées. On présentera les résultats obtenus récemment, qui consistent en des estimées de noyaux de la chaleur pour la densité du processus $X_t$ solution de $(E)$.
**Invité** : Salim Amoukou
**Date** : 28 mars 2023
**Titre** : Distribution-Free Uncertainty Quantification
Résumé : Machine learning techniques offer single point predictions, such as mean estimates for regression and class labels for classification, without providing any indication of uncertainty or reliability. This can be a major concern in high-stakes applications where precision is vital. Accuracy alone does not suffice for reliable, consequential decision-making; we also need uncertainty. Distribution-free Uncertainty Quantification gives finite-sample statistical guarantees for any predictive model, no matter how bad/misspecified, and any data distribution, even if unknown. I will introduce Conformal Prediction, which is a universal framework that constructs a prediction interval $C(X_{n+1})$ for the unseen response $Y_{n+1}$ given a new feature $X_{n+1}$ with finite-sample (non-asymptotic) coverage guarantee without making any assumptions on the distribution and the model.
**Invité** : Alejandro Bandera Moreno (Université de Séville)
**Date** : 14 mars 2023
**Titre** : An introduction to model order reduction in differential equations.
Résumé : In this talk, we aim to present the difficulties arising when solving numerically a parametric partial differential equation (PDE) or a parametric system of ordinary differential equations (SDE). Then, we will explain some methods developed to deal with these problems, more precisely, we will focus on three methods: Proper Orthogonal Decomposition (POD) for SDE, Reduced Basis (RB) for a turbulence PDE model and Proper Generalized Decomposition (PGD) for symmetric PDE problems.
**Invité** : David Llerena
**Date** : 14 février 2023
**Titre** : Sur la régularité locale de certains modèles de la mécanique des fluides
Résumé : Dans cet exposé, on s'intéresse à la régularité locale des équations des fluides micropolaires incompressibles. Ce système, constitué de 3 variables (la vitesse, la vitesse
de microrotation et la pression) décrit le comportement des fluides avec des microstructures. Notre but est d'étudier la régularité de ce système et de mettre en lumière quelques relations entre les variables. En effet, nous montrerons d'abord un résultat récent permettant de déduire un gain d'intégralité pour la vitesse de microrotation à partir de certaines informations Morrey sur la vitesse, d'où une domination d'une variable sur l'autre. Enfin, nous en présentons l'application à la théorie de la régularité partielle.
**Invitée** : Elisabetta Brocchieri
**Date** : 18 janvier 2023
**Titre** : Systèmes de diffusion croisée induits par la diversité alimentaire.
Résumé : Les systèmes de diffusion croisée sont des systèmes paraboliques non linéaires survenant dans la biologie et l’écologie. Dans cet exposé, nous étudions l'existence de solutions faibles d'une classe de systèmes de diffusion croisée triangulaires, induits par la diversité alimentaire, qui s'appliquent à la dynamique des populations. On montre de manière rigoureuse le passage d’un système de réaction-diffusion avec diffusion linéaire et interactions compétitives vers un système de diffusion croisée, obtenu comme limite de réaction rapide. Les outils utilisés pour passer rigoureusement à la limite incluent des estimations a priori, données par l’analyse d’une fonctionnelle d’entropie, et un argument de compacité.