COmpression et REprésentation des Signaux Audiovisuels>

FR EN

Tutoriels

Protection de contenu multimédia: de l'insertion de données cachées au chiffrement, en passant par l'obscuration et le partage de secret.

De plus en plus de données multimédias, telles que des images, des vidéos et des contenus 3D, sont transmises sur des réseaux numériques, stockées ou partagées dans le cloud, puis partagées et visualisées sur les réseaux sociaux. Outre la nécessité de compresser ces données multimédias très volumineuses pour des raisons de confidentialité, de respect de la vie privée ou d'informations secrètes, il est de plus en plus nécessaire de protéger directement les contenus multimédias, et pas seulement l'accès aux réseaux. Dans ce cours, après avoir détaillé les spécificités de chaque type de données multimédia, tant en termes de compression que de protection, nous présenterons les différentes facettes possibles pour protéger ce contenu multimédia et illustrerons avec différentes applications allant de l'imagerie médicale au Métaverse, en passant par l'industrie manufacturière pour la mode et les vidéos de drones.
La première partie sera consacrée à l'insertion de données cachées, à la distinction entre le tatouage et la stéganographie, et se terminera par une discussion sur la stéganalyse. La deuxième partie détaillera les aspects cryptographie appliquée au contenu multimédia, en distinguant le chiffrement sélectif du chiffrement partiel, et se terminera par la crypto-compression (image, vidéo et objet 3D). La troisième partie présentera différentes méthodes d'obscurcissement d'images, réversibles ou non, visibles ou non. Nous verrons que l'obscurcissement non visible des images repose principalement sur la génération de fausses images. Enfin, nous aborderons les méthodes de partage de secrets appliquées aux images.
Pour conclure, nous discuterons également du jeu du chat et de la souris, en mettant en évidence les attaques et les défenses adversaires qui doivent être prises en compte.

William Puech a obtenu son diplôme d'ingénieur en génie électrique à l'Université de Montpellier, France (1991), ainsi qu'un doctorat en Signal-Image-Parole de l'Institut National Polytechnique de Grenoble, France (1997), avec des activités de recherche axées sur le traitement d'images et la vision par ordinateur. Il a exercé en tant que chercheur associé invité à l'Université de Thessalonique, en Grèce. De 1997 à 2008, il a été maître de conférences à l'Université de Montpellier, où il est, depuis 2009, professeur des universités en traitement d'images. Ses domaines de recherche actuels concernent l'analyse forensique des images et la sécurité pour le transfert, le stockage et la visualisation sécurisés, en combinant le masquage de données, la compression, la cryptographie et l'apprentissage automatique. Il dirige l'équipe ICAR (Image et Interaction) au sein du LIRMM et a publié plus de 50 articles dans des revues internationales ainsi que 160 articles de conférence. Il est éditeur associé pour quatre revues (SPIC, SP, JVCIR et IEEE TDSC) dans les domaines de l'analyse forensique et de la sécurité des images, et éditeur senior pour IEEE TIFS. Depuis 2017, il préside le chapitre français de l'IEEE Signal Processing. Il a été membre du comité technique (TC) IEEE Information Forensics and Security entre 2018 et 2020, puis de nouveau depuis 2022. Depuis 2021, il est également membre du comité technique IEEE Image, Video, and Multidimensional Signal Processing.

Visioconférence à très faible débit avec codage vidéo facial génératif : de la recherche à la normalisation

Les applications de visioconférence constituent une part importante du trafic vidéo sur Internet, qui a fortement augmenté ces dernières années avec la pandémie mondiale. Les systèmes actuels de visioconférence reposent sur des normes classiques de compression vidéo avancée telles que H.264, HEVC ou VVC. Cependant, malgré plus de trois décennies d’amélioration et d’optimisation, ces codecs peinent encore à offrir des performances satisfaisantes à des débits extrêmement faibles. Dans des scénarios où la bande passante est fortement contrainte, comme dans les réseaux congestionnés ou les zones à faible couverture radio, la qualité vidéo obtenue devient inacceptable (perte de détails du visage), dégradant considérablement l’expérience de visioconférence.

Les architectures de codage vidéo facial génératif (GFVC), rendues possibles par les avancées récentes en apprentissage profond, ont récemment montré un fort potentiel pour répondre à ces limitations. Ces architectures traitent efficacement les données vidéo faciales en s’appuyant sur des modèles génératifs pour représenter et reconstruire le contenu vidéo de manière compacte. Ce processus permet de réduire drastiquement les besoins en bande passante tout en améliorant la qualité visuelle des applications de visioconférence, ce qui améliore in fine l’expérience utilisateur.

Ce tutoriel proposera une vue d’ensemble complète des méthodes GFVC, couvrant à la fois les avancées récentes dans la littérature scientifique ainsi que les activités actuelles de normalisation.

Giuseppe Valenzise est directeur de recherche au CNRS à l’Université Paris-Saclay, au sein du Laboratoire des Signaux et Systèmes (L2S). Il est actuellement rédacteur en chef du Journal on Image and Video Processing (Springer). Il a obtenu son doctorat au Politecnico di Milano et a rejoint le Centre National de la Recherche Scientifique (CNRS) en tant que chercheur permanent en 2012. Au L2S, il a dirigé l’équipe Multimedia and Networking de 2023 à 2025. Ses travaux de recherche couvrent le traitement d’images et de vidéos 2D et 3D, incluant la compression d’images et de vidéos (traditionnelle et basée sur l’apprentissage), les nuages de points et le 3D Gaussian Splatting, l’évaluation de la qualité d’image et de vidéo, l’imagerie à grande dynamique (HDR), ainsi que l’analyse d’images et de vidéos fondée sur l’apprentissage automatique. En 2018, il a reçu le prix EURASIP Early Career Award pour ses contributions au codage et à l’analyse vidéo. Giuseppe possède une vaste expérience en service scientifique et en organisation de conférences, participant régulièrement aux comités d’organisation et techniques de grandes conférences internationales en multimédia et traitement du signal, telles que ICIP, ICASSP et ICME. Il est ou a été éditeur associé pour IEEE Transactions on Circuits and Systems for Video Technology, IEEE Transactions on Image Processing (Outstanding Editorial Board Member Award en 2022 et 2023), ainsi que Signal Processing: Image Communication. Il a été président du comité technique Multimedia Signal Processing (MMSP) de la IEEE Signal Processing Society pour le mandat 2024-2025, et a co-présidé l’édition 2025 de la conférence IEEE International Conference on Multimedia & Expo (ICME).

Technologies de vidéo volumétrique pour la communication immersive en temps réel

La communication immersive émerge comme une application clé des technologies de réalité étendue, visant à permettre des interactions à distance naturelles allant au-delà de la visioconférence traditionnelle. La vidéo volumétrique permet de capturer et de transmettre des représentations tridimensionnelles dynamiques de personnes et de scènes, offrant aux utilisateurs la possibilité d’observer et d’interagir avec le contenu depuis des points de vue arbitraires. La fourniture de telles expériences en temps réel nécessite des avancées à la fois dans l’acquisition de données volumétriques et dans leur compression efficace.

Ce tutoriel couvrira à la fois les fondements théoriques et les aspects pratiques de mise en œuvre des systèmes de médias volumétriques pour la communication immersive. Il comparera les technologies de capture, allant des systèmes professionnels en studio aux solutions temps réel orientées grand public, et discutera de leurs capacités et contraintes en termes de qualité et de performance. En outre, il présentera les méthodes de compression volumétrique, avec un accent particulier sur le V-PCC ainsi que sur la conception pratique d’encodeurs temps réel, offrant aux participants une compréhension des compromis entre efficacité théorique de codage et contraintes d’exécution en temps réel.

Alexandre Mercat est professeur assistant en tenure-track à l’Université de Tampere (TAU), en Finlande. Il a obtenu son doctorat en génie électrique et informatique à l’INSA Rennes en 2018, puis a été chercheur postdoctoral à TAU de 2018 à 2024. Au sein du groupe Ultra Video Group (UVG), ses recherches portent sur le codage, le traitement et le streaming vidéo, la conception tenant compte de l’énergie et de la complexité, ainsi que les formats volumétriques émergents, avec un fort accent sur les encodeurs et jeux de données open source. Il est co-auteur de plus de 50 publications évaluées par les pairs, a développé des codecs et des jeux de données open source largement utilisés, et a reçu plusieurs prix du meilleur article, notamment à ACM MMSys et IEEE VCIP. Il est membre du comité technique Visual Signal Processing and Communications de l’IEEE et cofondateur de la rubrique Insights from Negative Results du Journal of Signal Processing Systems.

Vie privée | Accessibilité