Année | 2026 | ROR organisme subventionnaire | https://ror.org/00w3qhf76 |
---|---|---|---|
DOI | https://doi.org/10.69777/368096 | Secteur | Nature et technologies |
Montant total | 90 000$ | Titre | Planification Générative Aversion au Risque |
Date de début et date de fin | 2025-05-15 - 2027-05-14 | Établissement | HEC Montréal |
Nom, Prénom | Yudong, Luo | Nom du programme | Bourses de recherche postdoctorale |
Résumé | La demande d'évitement des risques dans l'application pratique a inspiré la prise de décision séquentielle aversive au risque. Cependant, l'optimisation du risque dans la prise de décision séquentielle est généralement difficile en raison du manque de monotonie de la programmation dynamique. Les méthodes existantes souffrent d'une faible efficacité en temps et en échantillons en raison de la nécessité d'apprendre de nouvelles politiques pour chaque préférence de risque, par exemple, un niveau de risque alpha différent pour la valeur conditionnelle à risque. Dans cette proposition, nous proposons une approche alternative en considérant la prise de décision séquentielle aversive au risque comme un problème d'optimisation de chemin basé sur les données via des modèles génératifs. L'idée principale est de former directement un modèle génératif qui soit adapté à l'optimisation de chemin, de sorte que l'échantillonnage de chemin à partir du modèle soit identique à la planification avec celui-ci. Nous proposons d'apprendre le modèle génératif par des modèles de diffusion. L'avantage est que nous pouvons effectuer une planification simultanée avec une évolutivité à long terme et une interpolation des critères de risque. La capacité de généralisation des modèles de diffusion nous permet de générer des chemins aversifs au risque pour toutes préférences de risque sans avoir besoin d'apprendre une nouvelle politique, ce qui améliore l'efficacité des échantillons. C'est également une alternative prometteuse à l'apprentissage hors ligne des politiques aversives au risque en contournant les erreurs d'estimation de valeur, car aucune fonction de valeur n'est nécessaire pour apprendre. | ||
Mots clés | |||
Membres | Yudong, Luo (University of Waterloo - https://ror.org/01aff2v68) |