Lyon (France)

Conférences invitées

azencott.jpg   Chloé-Agathe Azencott        Cbio Mines Paris Tech

Structured feature selection in high-dimensional genomic data

Many problems in genomics require the ability to identify
relevant features in data sets containing many more orders of magnitude
than samples. One such example is genome-wide association studies
(GWAS), in which hundreds of thousands of variants are measured for
orders of magnitude fewer samples. Even for the most classical
approaches, where one tests for the association of each variant with the
phenotype, these studies are severely underpowered. Accounting for
multiple effects of several variants is even more challenging. This talk
will describe several approaches that alleviate this difficulty by
incorporating prior knowledge (such as biological networks, population
membership, or linkage disequilibrium) as structure on the data.

 

 

bellet.jpg   Aurélien Bellet          INRIA, Lille

 Differentially Private Machine Learning

Personal data is being collected at an unprecedented scale by businesses and public organizations, driven by the progress of data science and machine learning. While such data can be turned into useful knowledge about the global population by computing aggregate statistics or training machine learning models, this can also lead to undesirable disclosure of personal information. We must therefore deal with two conflicting objectives: maximizing the utility of data while protecting the privacy of individuals whose data is used in the analysis.

In this talk, I will present differential privacy (DP), a statistical definition of privacy which comes with rigorous guarantees as well as an algorithmic framework that allows the design of practical privacy-preserving algorithms. I will then discuss the application of DP to machine learning, and some related open questions.

 

berthoud.jpg   Françoise Berthoud          CNRS, Grenoble

 

Numérique et transition écologique : amis ou ennemis ?

J'aborderai dans cet exposé la matérialité du monde numérique et examinerai quelques pistes proposées pour réduire son empreinte afin de rester dans les limites planétaires : économie circulaire, découplage, utilisation du numérique pour réduire les émissions de CO2 d'autres secteurs, efficacité, sobriété numérique etc. Je passerai par un petit voyage virtuel aux pays de la "naissance" et de la "mort" de ces bijoux technologiques, pays où les réalités dépassent l'imaginaire de nos dystopies.

 

  

chainais.png   Pierre Chainais          ECLille CRIStAL Lille

Echantillonner efficacement grâce à l’approximation de distributions

Les méthodes bayésiennes pour les problèmes inverses en traitement du signal et des images ont l’avantage de donner accès à la distribution a posteriori des paramètres à estimer. Ainsi, on accède non seulement à une solution au problème, mais aussi à des intervalles de crédibilité précieux. Par exemple, en astrophysique ou en médecine, il n’existe en général pas de vérité terrain. Fournir des prédictions assorties d’intervalles de confiance est essentiel : la lecture de l’image reconstruite se fait avec un niveau de confiance contrôlé. Néanmoins, les méthodes de Monte Carlo utilisées pour ces simulations de lois a posteriori sont réputées gourmandes en temps de calcul et limitées quant au passage à l’échelle en grande dimension ou pour une grand nombre de paramètres à estimer. Nous présenterons une famille d’approches appelées « augmentation de données asymptotiquement exacte » (AXDA). Cette approche, inspirée du splitting en optimisation, permet de construire de façon systématique une distribution approchée moins coûteuse à échantillonner que la loi cible du modèle initial, dans le cadre d’un compromis efficacité numérique/qualité de l’approximation. Ces méthodes ouvrent la voie à de nombreuses déclinaisons que nous évoquerons et illustrerons par des applications à la résolution de problèmes inverses.

 

 

chazal.png   Frédéric Chazal          INRIA Univ Paris Saclay

Quelques propriétés statistiques des descripteurs topologiques des données.

L'Analyse Topologique des Données (TDA) est un domaine récent qui connait un succès croissant depuis quelques années. Il vise à comprendre, analyser et exploiter la structure topologique et géométrique de données complexes. Avec l'émergence de la théorie de la persistance homologique, la géométrie et la topologie ont fourni des outils nouveaux et efficaces pour aborder ces questions. Dans cet exposé, nous introduirons quelques outils permettant de construire des descripteurs robustes de la topologie des données. Nous nous intéresserons en particulier à leurs propriétés statistiques et nous illustrerons, sur quelques exemples concret, l’intérêt des approches topologiques pour l’analyse des données et l’apprentissage statistique.

 

 

fort.png   Gersende Fort          CNRS IMT Toulouse

Algorithmes Majoration-Minoration stochastiques pour l'Apprentissage Statistique grande échelle

En Apprentissage Statistique, notamment pour la minimisation de fonctions de risque, on s'intéresse à la minimisation de fonctions de type 'sommes finies' i.e. s'exprimant comme la somme d'un grand nombre de termes, eux-mêmes pouvant ne pas avoir d'expressions explicites. Il est alors nécessaire de définir des procédures d'optimisation stochastiques, capables de réduire le coût computationnel lié à la gestion de grands ensembles d'apprentissage, mais aussi d'intégrer des approximations consistantes de quantités incalculables.

Cet exposé sera consacré aux procédures d'optimisation de type Majoration-Minoration (MM). Les algorithmes de gradient stochastique et leurs extensions proximales, ou encore les algorithmes Expectation-Maximization pour l'apprentissage dans les modèles à données latentes, sont des exemples de procédures MM très populaires en Statistique.

Cet exposé présentera de nouveaux algorithmes d'approximations stochastiques accélérés pour répondre à des problèmes d'apprentissage statistique dans le contexte usuel de grands ensembles d'apprentissage, mais aussi celui de l'apprentissage en ligne et de l'apprentissage fédéré. Des éléments d'analyse de convergence et d'analyse de complexité seront aussi discutés.


 

hallin.jpg   Marc Hallin              Univ. libre de Bruxelles

Quantiles, Profondeur et Transports de Mesures

Le concept univarié de fonction quantile---l'inverse d'une fonction de répartition---joue un rôle fondamental en Statistique et en Analyse des Données aussi bien qu'en Calcul des Probabilités. En dimension supérieure à un, malheureusement, l'inversion de la fonction de répartition traditionnelle ne mène à aucun des résultats qui font des versions empiriques de ces concepts (quantiles empiriques, rangs) des outils statistiques de première importance. La raison fondamentale en est que, contrairement à la droite, l'espace réel en dimension d>1 n'est pas ordonné de façon canonique. Les concepts de profondeur (deont l'exemple le plus connu est la profondeur au sens de Tukey) ont été introduits pour pallier ce problème. Les concepts de profondeur, malheureusement, ne mènent pas à des notions jouissant des propriétés attendues d'une notion de quantile. En particulier, la probabilité d'une région délimitée par un contour de profondeur donnée n'est pas indépendante de la loi sous-jacente, ce qui contredit à l'essence même d'une région quantile. Fondée sur des idées de transports de mesures, un concept de fonction de répartition multivariée nouveau, dit ``center-outward,'' donne lieu à une notion de contours quantiles multivariés présentant toutes les propriétés de la notion univariée. Sa version empirique, de même, conduit à des rangs et des signes multivariés et des tests qui étendent au contexte multivarié la théorie des tests de rangs univariés et des R-estimateurs associés au nom de Hajek. Les contours quantiles correspondants peuvent être interprétés comme une version "transformation-retransformation" des contours de profondeur traditionnels.  

 

 kaufmann.jpg   Emilie Kaufmann         CNRS CRIStAL Lille

Algorithmes de bandits non-paramétriques: optimalité et robustesse

Dans un modèle de bandit, un agent sélectionne de manière séquentielle des “bras”, qui sont des lois de probabilité initialement inconnues de l’agent, dans le but de maximiser la somme des échantillons obtenus, qui sont vus comme des récompenses. Les algorithmes de bandits les plus populaires sont basés sur la construction d’intervalles de confiance ou l’échantillonnage d’une loi a posteriori, mais ne peuvent atteindre des performances optimales qu’un ayant une connaissance a priori sur la famille de distributions des bras. Dans cet exposé nous allons présenter des approches alternatives basées sur du ré-échantillonnage de l’historique de chaque bras. De tels algorithmes peuvent s’avérer plus robustes en deux sens. Nous verrons qu’ils peuvent être optimaux pour plusieurs classes de distributions, et être aisément adaptés à des situations où le critère de performance n’est pas lié à la récompense moyenne de l’agent, mais prend en compte une mesure de risque.

 

 

kpotufe.jpg   Samory Kpotufe        Columbia University

Adaptivity in Domain Adaptation and Friends

 

Domain adaptation, transfer, multitask, meta, few-shots, representation, or lifelong learning … these are all important recent directions in ML that all touch at the core of what we might mean by ‘AI’. As these directions all concern learning in heterogeneous and ever-changing environments, they all share a central question: what information a data distribution may have about another, critically, in the context of a given estimation problem, e.g., classification, regression, bandits, etc. 

Our understanding of these problems is still rather fledgeling. We plan to present both some recent positive results and also some negative ones. On one hand, recent measures of discrepancy between distributions, fine-tuned to given estimation problems (classification, bandits, etc) offer a more optimistic picture than existing probability metrics (e.g. Wasserstein, TV) or divergences (KL, Renyi, etc) in terms of provable rates. On the other hand, when considering seemingly simple extensions to choices between multiple datasets (as in multitask), or multiple prediction models (as in Structural Risk Minimization), it turns out that minimax oracle rates are not always adaptively achievable, i.e., using just the available data without side information. 

The talk will be based on joint work with collaborators over the last few years, namely, G. Martinet, S. Hanneke, J. Suk. 

 

 
 

papadakis.jpg   Nicolas Papadakis          CNRS Bordeaux

Gradient Step Denoiser for convergent Plug-and-Play


In image sciences, Plug-and-Play methods constitute a class of iterative algorithms for solving Bayesian inverse problems where regularization is performed by an off-the-shelf denoiser. Although Plug-and-Play methods can lead to tremendous visual performance for various image problems, the few existing convergence guarantees are based on unrealistic (or suboptimal) hypotheses on the denoiser, or limited to strongly convex data terms. In this work, we propose a new type of Plug-and-Play methods, based on half-quadratic splitting, for which the denoiser is realized as a gradient descent step on a functional parameterized by a deep neural network. Exploiting convergence results for proximal gradient descent algorithms in the non-convex setting, we show that the proposed Plug-and-Play algorithm is a convergent iterative scheme that targets stationary points of an explicit global functional. Besides, experiments show that it is possible to learn such a deep denoiser while not compromising the performance in comparison to other state-of-the-art deep denoisers used in Plug-and-Play schemes. We apply our proximal gradient algorithm to various ill-posed inverse problems, e.g. deblurring, super-resolution and inpainting. For all these applications, numerical results empirically confirm the convergence results. Experiments also show that this new algorithm reaches state-of-the-art performance, both quantitatively and qualitatively.

 

prieur.png   Clémentine Prieur          Univ. Grenoble

(Non)linear dimension reduction of input parameter space using gradient information

Many problems that arise in uncertainty quantification, e.g., integrating or approximating multivariate functions, suffer from the curse of dimensionality. The cost of computing a sufficiently accurate approximation grows indeed dramatically with the dimension of input parameter space. It thus seems important to identify and exploit some notion of low-dimensional structure as, e.g., the intrinsic dimension of the model. A function varying primarily along a a low dimensional manifold embedded in the high-dimensional input parameter space is said of low intrinsic dimension. In that setting, algorithms for quantifying uncertainty focusing on the most relevant features of input parameter space are expected to reduce the overall cost. Our presentation goes from global sensitivity analysis to (non)linear gradient-based dimension reduction, generalizing the active subspace methodology.

 

reiss.jpeg   Markus Reiss       Humboldt-Universität zu Berlin

Rank detection for time-varying covariance matrices and how Le Cam Theory may help

Rank detection for covariance matrices is one of the fundamental inference problems in statistics. Here we focus on the case of a time-varying instaneous (or spot) covariance matrix S(t) of a continuous-time process X(t). The data are given by high-frequency observations of X on [0,T], possibly corrupted by noise. We ask for testing the null hypothesis H 1 : ∫ 0 T λ r + 1 ( S ( t ) ) d t ≥ v n i.e. that the mean (r+1)st eigenvalue is larger than some signal detection rate v n, tending to zero with sample size n. This problem can be embedded in the classical nonparametric signal detection framework, but it has many unexpected features. For instance, the optimal detection rate depends on a regularity assumption on S(t)  under the null, not the alternative and a possible spectral gap leads to significantly better detection rates. We show how an asymptotically equivalent nonparametric Gaussian white noise model may help to understand the structure of the statistical problem and to come up with efficient and implementable methods.  The rank detection is illustrated with applications to intraday data from government bonds.

 

Based on joint work with Lars Winkelmann, Markus Bibinger, Nikolaus Hautsch, Peter Malec

 

 

 

lichueng.jpg   Li-Chun Zhang          Univ. Southampton

Descriptive inference of big-data statistics


We consider descriptive inference where the targets of interest can in principle be observed in a ‘perfect census’, in contrast to analytic inference where such a ‘perfect census’ does not exist even conceptually. For instance, which ones among the residents of France (as a given population) are infected by a certain virus on a given day is a descriptive inference problem, whereas the ‘true’ regression relationship between a scaler response and a given set of explanatory variables is a problem of analytic inference.
 
A fundamental challenge for descriptive inference based on supervised (machine) learning is to ‘extrapolate’ the model learned from the available observations (as a sample) to the unobserved ones, without which the learning would have little use. No matter how learning is organised within the sample, one cannot ensure the adopted model is valid outside it unless the sample is selected from the population in some controlled manner.
 
We shall consider, in two situations particularly, how probability sampling (or design-based) methods can be combined with supervised learning, such that the validity of descriptive inference is ensured with respect to hypothetical repeated probability sampling, regardless the adopted model is ‘true’ or not. In the first situation, supervised learning is based on a probability sample such that one can obtain an estimator of the total errors from applying the learned model to the out-of-sample units, which is unbiased over repeated sampling. In the second situation, we assume that the adopted model is learned from a very large ‘convenience sample’ (or big data), such that it is necessarily misspecified to some extent for the out-of-sample units, due to problems of incomplete coverage, imperfect measurement or informative selection, and the bias of any resulting statistic overwhelms the associated variance. A so-called auditing sample can now be used to provide accuracy measures that are valid over repeated sampling and unaffected by the failure of the assumptions underlying the big-data statistics themselves.

Personnes connectées : 2