Quelques outils statistiques pour la prise de décision séquentielle
Le modèle probabiliste du bandit à plusieurs bras a été beaucoup étudié ces dernières années pour diverses applications à l’allocation séquentielle de resources. La littérature s’est d’abord principalement intéressée au problème d’apprentissage par renforcement associé, où un agent cherche à maximiser les récompenses obtenues après des sélections successives des bras. Dans cet exposé, nous nous intéresserons à d’autres problèmes de bandit où l’on relaxe la contrainte de maximiser les récompenses et on cherche plutôt à résoudre un problème d’identification (trouver le bras vérifiant une certaine condition par exemple), le plus rapidement et le plus exactement possible. Nous verrons que des outils statistiques bien connus, les tests de rapports de vraissemblance généralisés sont des outils puissants pour résoudre ces problèmes d’identification active dans un modèle de bandit. En particulier, ils permettent de construire des règles d’arrêt minimisant le nombre d’échantillons des bras nécessaires pour résoudre le problème d’identification, lorsqu’ils sont associés à une bonne règle d’échantillonnage.
-
Téléchargements
-