Résumé

L’échantillonnage basé sur une grille garantit un équilibrage spatial de l’échantillon. L’inventaire français applique une structure de grille hiérarchique imbriquée et un plan de sondage à deux degrés et en deux phases, ce qui complique le calcul d’estimateurs de variance sans biais. Nous étendons l’étude par simulations de Duong et al., (2025) à un cadre plus réaliste, et comparons plusieurs stratégies d’échantillonnage. Les résultats montrent que le plan de sondage de l’IFN français est le plus efficace parmi les plans testés, et produit la variance la plus faible pour les estimations de totaux.


Messages clés :
- Nous comparons le plan de sondage de l’IFN français avec d’autres stratégies d’échantillonnage, en utilisant les estimateurs proposés dans Duong et al., (2025).
- Nos résultats confirment l’efficacité de l’estimateur et du plan de sondage dans son ensemble.
- L’estimateur de la variance est très conservateur, conduisant souvent à une forte surestimation

Abstract

Grid-based sampling ensures the spatial balancing of a sample. The French inventory applies a nested hierarchical grid structure and a two-stage and two-phase sampling design, which complicates the calculation of unbiased variance estimators. Here, we extend the simulation study by Duong et al., (2025) to a more realistic setting, and we compare several sampling strategies. The results show that the French IFN sampling design is the most efficient of those tested, and that it produces the smallest variance for the estimates of totals.


Key messages:
- We compare the sampling design of the IFN with other sampling strategies using estimators proposed in Duong et al., (2025).
- Our results confirm the efficacity of the estimator and the overall sampling design.
- The variance estimator is very conservative, often leading to considerable overestimation.


 

Introduction

Les inventaires forestiers nationaux (IFN) utilisent depuis longtemps un échantillonnage basé sur une grille (Spurr, 1952 ; Magnussen et al., 2020), une pratique qui reste largement répandue aux niveaux local, régional et national (Brooks et Wiant Jr, 2004 ; Kangas et Maltamo, 2006 ; Nelson et al., 2008 ; Tomppo et al., 2010 ; Vidal et al., 2016). Les IFN à grande échelle utilisent principalement ce type d’échantillonnage pour assurer un équilibrage spatial de l’échantillon, c’est-à-dire pour maintenir une intensité d’échantillonnage aussi uniforme que possible sur le territoire étudié (Stevens Jr et Olsen, 2004 ; Kermorvant et al., 2019). Cet équilibrage spatial peut être simplement vu comme un moyen de maintenir une distance comparable entre les points d’observation dans l’espace. Comme les mesures sur le terrain sont coûteuses et prennent du temps, les IFN répartissent également la collecte des données sur plusieurs années, et le nombre définit le cycle d’inventaire.

Pour garantir une coordination spatiale et temporelle, les IFN annuels subdivisent leurs échantillons en sous-ensembles de points, et chaque sous-ensemble est affecté à une année spécifique du cycle. Cette subdivision garantit que le nombre d’unités d’échantillonnage soit à peu près constant d’une année sur l’autre, ce qui permet de maintenir un effort similaire. Dans les inventaires panélisés annuels (Bontemps & Bouriaud, 2024), chaque sous-ensemble est lui-même spatialement équilibré sur le territoire, bien qu’avec une densité plus faible. La coordination est nécessaire pour éviter les amas ou les vides lors de la superposition de plusieurs sous-ensembles. L’IFN français réalise cette coordination en utilisant une grille carrée hiérarchique (Bouriaud et al., 2023), qui divise une grille de base dense au niveau du pays en dix sous-ensembles interpénétrants (Mahalanobis, 1944), un pour chaque année d’un cycle de dix ans. Toutefois, contrairement à de nombreux IFN qui ne produisent des estimations qu’une fois par cycle complet, l’IFN français produit des estimations annuelles (Duong et al., 2025). Il est donc nécessaire de considérer la sélection des mailles d’une année donnée comme une étape distincte du processus d’échantillonnage. Par conséquent, l’échantillonnage de l’IFN français est mieux décrit comme un plan de sondage à deux degrés : (1) la sélection des cellules de la grille au premier degré, suivie par (2) la sélection aléatoire d’un point au second degré, à l’intérieur de chaque cellule sélectionnée. Ce plan permet une estimation annuelle en utilisant l’échantillon de l’année en cours.

L’inférence dans les IFN est fondamentalement basée sur le plan de sondage, s’appuyant sur les propriétés du mécanisme de sélection pour garantir des estimations non biaisées. De nombreux IFN, y compris l’IFN français, utilisent un échantillonnage en deux phases pour combiner un échantillon de points de grande taille, obtenu à faible coût, et un échantillon de plus petite taille donnant lieu à des mesures sur le terrain, et donc plus coûteux (Rivest et al., 1990 ; Gregoire et Valentine, 2008 ; Mandallaz, 2007 ; von Lüpke et Saborowski, 2014 ; Saborowski et al., 2010). En règle générale, l’échantillon de première phase se compose d’un grand nombre de points tirés dans le territoire d’étude, et sur lesquels une photo-interprétation est effectuée. Cela permet la classification en strates sur la base des types de végétation. L’échantillon de deuxième phase est un sous-échantillon de ces points, qui font l’objet de mesures sur le terrain, fournissant des données d’attribut telles que le volume de bois. Ce dispositif en deux phases permet d’obtenir des estimations de superficie à l’aide des points de première phase, et des estimations d’attributs (par exemple, le volume) au sein de chaque strate à l’aide des mesures réalisées sur les points de seconde phase.

L’utilisation de grilles hiérarchiques pour l’échantillonnage présente également des avantages pour l’échantillonnage en deux phases. Elle offre un moyen simple de sélectionner l’échantillon de seconde phase, sur la base des règles de sous-ensembles géométriques, offrant ainsi un équilibrage spatial à l’échantillon de seconde phase. Par exemple, Opsomer et al., (2007) ont utilisé l’échantillonnage systématique en deux phases pour produire des échantillons de seconde phase spatialement systématiques, tandis que Duong et al., (2025) ont proposé une approche de sous-échantillonnage basée sur une grille, utilisant des niveaux hiérarchiques pour échantillonner avec une intensité d’échantillonnage variable tout en préservant l’équilibrage spatial.

Comme nous l’avons vu, l’IFN français utilise une grille comme support à l’échantillonnage à deux degrés et en deux phases, ce qui apporte de nombreux avantages opérationnels et statistiques. Cependant, il en résulte des échantillons fortement coordonnés à la fois dans l’espace et dans le temps, ce qui leur confère des désavantages par rapport aux échantillons aléatoires. En effet, la coordination stricte basée sur une grille se fait au détriment de l’indépendance dans la sélection des unités. Il en résulte des complications pour l’estimation de la variance. La sélection de l’échantillon de mailles au premier degré et la sélection du sous-échantillon de points en seconde phase ne sont pas faits de façon complètement aléatoire, comme dans le cas d’un plan de sondage probabiliste standard. Les effets sur le biais des estimations et sur le comportement des estimateurs de variance ne sont pas connus.

Pour y remédier, Duong et al., (2025) ont proposé un estimateur de total et un estimateur approximatif de la variance pour l’IFN français, en supposant une sélection aléatoire à chaque étape du plan de sondage. Leurs conclusions indiquent que ces estimateurs sont efficaces. Pour consolider ces résultats, nous proposons d’étendre leur étude par simulations afin d’intégrer un scénario plus complexe et plus réaliste. Plus précisément, nous visons à comparer le plan de sondage de l’IFN français à d’autres mécanismes de tirage appliqués à la même grille de base. Notre objectif est d’évaluer l’efficacité et la robustesse des estimateurs ainsi obtenus, et d’évaluer leurs performances par rapport à l’IFN français.

Matériel et méthodes

Le plan de sondage de l’IFN

Le plan de sondage de l’IFN français, à deux degrés et en deux phases, s’appuie sur une grille carrée couvrant l’ensemble du territoire I de surface AT, en le partitionnant en cellules carrées comme présenté dans la figure 1a. Cette grille de base (1 × 1 km) est utilisée depuis 2004 (Vidal et al., 2007), et s’inspire du plan de sondage utilisé par le Forest Inventory and Analysis (FIA) (Reams et al., 2005).

Figure 1 – Illustration du plan de sondage à deux degrés et en deux phases utilisé dans l’IFN français.

Note de lecture : (a) Une grille couvrant l’ensemble du territoire d’étude, et partitionnant le territoire en unités spatiales. (b) La grille est divisée en dix sous-échantillons. Les cellules sélectionnées au premier degré sont indiquées en bleu, et représentent une année spécifique dans le cycle d’inventaire (par exemple, année 1). (c) Un point, sélectionné aléatoirement dans chaque cellule échantillonnée, représente le second degré d’échantillonnage. Les points sélectionnés forment l’échantillon de première phase. (d) Classification des points de l’échantillon de première phase en trois catégories : forêt, zone arbustive, zone non forestière. (e) Attribution de niveaux de stratification à chaque cellule, et sélection des cellules en fonction de leur catégorie de strate. (f) L’échantillon de seconde phase est constitué des points finalement tirés dans les cellules sélectionnées.

Selon Bouriaud et al. (2023), les grilles utilisées dans les enquêtes à grande échelle doivent satisfaire trois propriétés essentielles pour être efficaces :

(1) Une couverture spatiale régulière du territoire ;

(2) Une division en sous-ensembles de même taille ; et

(3) Une intensité d’échantillonnage réglable à l’intérieur de ces sous-ensembles.

Pour répondre à ces critères, des grilles carrées emboîtées hiérarchiquement sont construites au-dessus d’une grille de base. Le principe sous-jacent est que les unités d’échantillonnage (les nœuds de la grille ou les cellules) puissent être sous-échantillonnés de façon que chaque sous- ensemble forme également une grille carrée régulière (Bouriaud et al., 2023 ; Duong et al., 2025). Cela conduit au concept de grilles interpénétrées, avec 2, 4, 5, 8, 9 ou 10 subdivisions possibles. Bien que davantage de combinaisons soient mathématiquement possibles, les configurations avec cinq et dix grilles interpénétrées, formant le cycle de cinq ou dix ans, sont particulièrement importantes. Cette structure de grilles interpénétrées tient compte à la fois de la régularité spatiale (systématicité) et de la régularité temporelle (périodicité), satisfaisant ainsi aux propriétés (1) et (2). Dans le cas de l’IFN français, la grille de base est d’abord divisée en dix sous-ensembles interpénétrés de taille (sensiblement) égale et couvrant l’ensemble du territoire, ce qui correspond à un cycle d’inventaire de dix ans.

Chaque sous-ensemble annuel est une grille carrée, comme l’illustrent les carrés bleus de la figure 1b. Ces sous-ensembles sont ensuite subdivisés de manière récursive en deux sous-ensembles carrés qui s’interpénètrent. À chaque subdivision, seule la moitié des unités est conservée. Ces sous-ensembles récursifs sont appelés niveaux ; à mesure que le niveau augmente, le nombre d’unités conservées diminue, ce qui se traduit par une baisse de l’intensité d’échantillonnage. Cette structure en niveaux permet de diminuer progressivement l’intensité d’échantillonnage au sein d’un sous-ensemble annuel donné, tout en préservant l’équilibrage spatial et les propriétés géométriques de la grille, comme le montre la figure 1e (Bouriaud et al., 2023 ; Duong et al., 2025). L’intensité de l’échantillonnage diminue d’un facteur deux à chaque niveau. Chaque unité est affectée à un niveau k correspondant à une fraction de sélection de 1/2k–1, où k = 1, 2, 3, …. Il est important de noter que toutes les unités du niveau k + 1 sont imbriquées dans le niveau k. Les dix sous-ensembles annuels sont tous affectés à une année d’échantillonnage spécifique lors de la création de la grille. De même, les niveaux de chaque cellule des grilles annuelles sont définis une fois pour toutes, toujours sur la base de propriétés géométriques strictes. Ainsi, aucun élément aléatoire n’intervient ni dans la division en sous-ensembles annuels, ni dans la définition des niveaux d’échantillonnage.

En pratique, l’IFN français utilise cette grille hiérarchique imbriquée pour attribuer à chaque cellule de la grille de base une année d’enquête et un niveau de sous-échantillonnage. L’algorithme de cette affectation est déterministe et entièrement décrit par Bouriaud et al. (2023) et Duong et al. (2025). Le plan d’échantillonnage de l’IFN français se déroule donc en trois étapes sur la grille de base :

(1) Sélection au premier degré des cellules de la grille sur la base du sous-ensemble interpénétré spécifique à l’année ;

(2) Sélection aléatoire de points dans chaque cellule sélectionnée au deuxième degré ;

(3) Sous-échantillonnage en seconde phase, déterminé par le niveau de la strate et du sous-ensemble.

Pour chaque année d’enquête, l’un des dix sous-ensembles temporels est sélectionné, ce qui permet d’obtenir une distribution spatiale systématique des cellules échantillonnées. Avec un point aléatoire sélectionné à l’intérieur de chaque cellule sélectionnée, nous obtenons un échantillon de première phase (a) de points Sa de taille na, spatialement équilibré comme illustré dans la figure 1c. Chaque point de Sa est classé dans l’une des G strates (par exemple, forêt, zone non forestière, zone arbustive) par photo-interprétation, comme le montre la figure 1d. L’échantillonnage de seconde phase dépend à la fois de la strate attribuée et du niveau de la cellule à laquelle le point appartient. Ainsi, Duong et al. (2025) ont décrit un exemple dans lequel la fraction d’échantillonnage est de 1 pour les zones non forestières (c’est-à-dire que tous les points de ce type sont conservés, mais ne sont pas mesurés sur le terrain), de 1/2 pour les zones forestières et de 1/4 pour les zones arbustives. Par conséquent, tous les points non forestiers sont conservés, tandis que seuls les points forestiers situés dans des cellules de niveau 2 ou plus, et les points de lande dans des cellules de niveau 3 ou plus, sont conservés – voir les figures 1e et 1f (voir aussi Bouriaud & Bontemps, 2025). L’échantillon de seconde phase qui en résulte conserve une distribution spatiale systématique sur l’ensemble du territoire (figure 1f).

Il est important de souligner que deux composantes de ce plan d’échantillonnage – la sélection des cellules au premier degré et le sous-échantillon de points en seconde phase – découlent de la structure hiérarchique de la grille imbriquée. Par conséquent, les deux étapes de l’échantillonnage produisent des échantillons spatialement systématiques, une caractéristique clé qui favorise l’équilibrage spatial mais qui pose des problèmes pour l’estimation de la variance basée sur le plan de sondage.

Estimateur du total et estimateur de variance

Les estimateurs du total et de la variance sont présentés en détail dans Duong et al., (2025). Leur calcul est assez fastidieux car ils reflètent la complexité du plan de sondage, qui comporte de nombreuses étapes. Dans cet article, nous donnons un aperçu de ces estimateurs. Soit Sga , de taille nga , le sous-ensemble de l’échantillon de première phase Sa appartenant à la strate de végétation g . L’échantillon de seconde phase correspondant dans la strate g, noté Sgb , est sélectionné à partir de Sga avec une fraction d’échantillonnage de fgb . L’échantillon global de seconde phase est alors défini comme :

Sb=g=1GSgb

Après la sélection de seconde phase, l’échantillon Sb est post-stratifié en H post-strates, construites en croisant les départements français, les catégories de propriété et les types de végétation. Pour simplifier, nous considérons le cas d’un seul département et d’une seule catégorie de propriété, avec une post-stratification appliquée sur la base des G strates de végétation afin d’améliorer la précision de l’estimation totale.

L’estimateur post-stratifié du total est

(1)τ^y,postb=ATnag=1GngangbxSgby(x)

ngb désigne la taille de l’échantillon de seconde phase Sgb dans la catégorie g. Dans l’équation (1), le terme na / AT représente la fonction de densité d’inclusion pour l’échantillonnage de première phase dans la population I . Par conséquent, l’inverse AT / na correspond au poids de sondage pour tout point x dans Sa. La variable locale y(x) associée au point x découle de la méthode généralisée de partage des poids (Chauvet et al., 2023 ; Bouriaud et al., 2024 ; Duong et al., 2025), qui convertit la valeur des attributs de l’arbre en variables d’intérêt au niveau du point, ce qui permet une estimation basée sur l’échantillon de points. Un exemple numérique illustrant l’application de l’estimateur total de la formule (1) est fourni en annexe (A).

Étant donné que le plan de sondage de l’IFN français conduit à un échantillon spatialement systématique (voir la section « Le plan de sondage de l’IFN »), il est impossible d’estimer la variance sans biais sous le plan de sondage. Par conséquent, pour obtenir un estimateur approximatif de la variance, des hypothèses sont introduites pour le premier degré d’échantillonnage sur les cellules et pour le sous-échantillonnage lors de la seconde phase. Comme l’ont proposé Duong et al., (2025), l’échantillon de cellules au premier degré est traité comme s’il avait été sélectionné par échantillonnage aléatoire simple, et le sous-échantillon de points à la seconde phase est traité comme s’il avait été obtenu par sondage aléatoire simple stratifié. Duong et al., (2025) ont proposé un estimateur de variance τ^y,postb , qui s’écrit

(2)V^mbτ^y,postb=AT21-mfΙ2na2na-1xx'Sby(x)-y(x')2πb|a(x,x')+ATna2g=1Gnga21ngb-1ngasgb2

avec πb|a(x,x')=ngbng'bngang'asixSgbetx'Sg'bavecgg',ngbngb-1nganga-1six,x'Sgb.

et sgb2=1ngb-1xSgby(x)-1ngbx'Sgby(x')2.

Le premier terme de l’équation (2) correspond à la famille des estimateurs de variance associés à l’échantillon de première phase, avec deux cas spécifiques pour le paramètre m considéré : m = 0 et m = 1. Lorsque m = 0, la variance est estimée en supposant que Sa a été sélectionné par na tirages uniformes et indépendants dans le domaine I , ce qui équivaut à une situation de sondage aléatoire simple avec remise (SRSwr, "with replacement") appliquée à la première phase. Il s’agit également d’une approche standard pour les inventaires forestiers (Gregoire et Valentine, 2008). En revanche, lorsque m = 1, une correction de population finie est appliquée, ce qui correspond à l’utilisation de sondage aléatoire simple sans remise (SRSwor, "without replacement") lors du premier degré de tirage des cellules. Le deuxième terme de l’équation (2) prend en compte la variance associée à la seconde phase.

Plans de sondage alternatifs

Pour évaluer l’efficacité du plan de sondage de l’IFN français, nous proposons de le comparer à d’autres plans de sondage. Ces plans alternatifs « plus simples », décrits en détail ci-dessous, seront appliqués aux deux étapes de l’échantillonnage : lors du premier degré, directement sur la grille de base, et lors de la sélection de l’échantillon de seconde phase dans l’échantillon de première étape.

Plans de sondage alternatifs au premier degré

Au premier degré, l’échantillonnage consiste à sélectionner les cellules de la grille de base en utilisant d’autres méthodes, plus simples, que la méthode de l’IFN basée sur la grille. Quatre plans de sondage ont été examinés : l’échantillonnage aléatoire simple avec remise (SRSwr, figure 2a), l’échantillonnage aléatoire simple sans remise (SRSwor, figure 2b), l’échantillonnage systématique (SYS, figure 2c) et l’échantillonnage stratifié d’une unité par strate (OPSS, "one per stratum", figure 2d).

Figure 2 – Illustration des plans de sondage alternatifs utilisés pour produire les échantillons du premier degré.

Note de lecture : Les figures correspondent à une représentation d’un échantillonnage de cellules au premier degré réalisé selon (a) un sondage aléatoire simple avec remise, (b) un sondage aléatoire simple sans remise, (c) un sondage systématique, et (d) un tirage stratifié d’une unité par strate.

Sondage aléatoire simple avec ou sans remise : ils servent de référence, puisque les estimateurs de variance développés par Duong et al., (2025) ont été développés pour ces plans de sondage.

Sous un SRSwor, un échantillon de na cellules est sélectionné sans remise, et un point est choisi au hasard à l’intérieur de chacune d’entre elles. Sous un SRSwr, un échantillon de na cellules est également sélectionné, mais une cellule peut être sélectionnée plusieurs fois et un point est sélectionné au hasard à chaque fois que la cellule est sélectionnée. Par exemple, dans la figure 2b, 40 cellules sont sélectionnées au total sous le SRSwor, ce qui conduit à un échantillon de première phase de 40 points. Par ailleurs, dans la figure 2a, un total de 35 cellules distinctes sont sélectionnées sous le SRSwr, pour 40 cellules tirées au sort. Parmi ces cellules, trois sont sélectionnées deux fois et contiennent donc chacune deux points aléatoires, et une est sélectionnée trois fois et contient donc trois points aléatoires. Nous obtenons donc également un total de 40 points. Il faut noter que le cas d’un SRSwr de cellules suivi d’un échantillonnage uniforme d’un point par cellule tirée est strictement équivalent à un échantillonnage uniforme et indépendant de na points sur le territoire I .

Tirage systématique : Le SYS consiste à obtenir un échantillon de cellules en énumérant tout d’abord toutes les cellules séquentiellement (par exemple, par ligne ou par colonne). Pour un taux de sondage de 1/10, une cellule notée 𝑐 est ensuite sélectionnée au hasard parmi les dix premières. L’échantillon est constitué des cellules c, c + 10, c + 20, …. Dans la figure 2c, toutes les cellules sont numérotées par ordre croissant, d’abord selon leur ordonnée y, puis selon leur abscisse x, en partant du coin inférieur gauche. Le point de départ aléatoire est la cellule numérotée 4 parmi les dix premières cellules. L’échantillon restant est sélectionné systématiquement en prenant chaque dixième élément jusqu’à la fin de la liste. La taille d’échantillon peut ne pas être fixe si le nombre de cellules n’est pas un multiple de 10, mais cette approche garantit une taille d’échantillon très cohérente d’une itération à l’autre, avec une différence maximale d’une unité. Toutefois, l’échantillon SYS peut présenter une trop forte régularité dans l’espace (voir la figure 2c), ou être davantage dispersé en fonction de la forme du territoire. La méthode de la liste est efficace en une dimension, mais moins dans un espace à plusieurs dimensions. Un point aléatoire est ensuite choisi dans chaque cellule sélectionnée, ce qui donne un échantillon de première phase de 40 points comme indiqué dans la figure 2c.

Tirage stratifié d’une unité par strate : Sous le tirage OPSS, chaque strate est définie comme comprenant dix cellules consécutives, selon un ordre prédéfini. Dans la figure 2d, la strate est formée par l’assemblage de dix cellules continues horizontalement de haut en bas. Une cellule est tirée aléatoirement dans chaque strate. Cette méthode garantit une taille d’échantillon constante tant que le nombre de cellules du territoire est un multiple de 10. Elle maintient le caractère aléatoire de l’échantillon, tout en le répartissant plus aléatoirement sur le territoire qu’avec un tirage systématique (figure 2d). Un point est ensuite sélectionné aléatoirement à l’intérieur de chacune des cellules sélectionnées.

Plans de sondage alternatifs en seconde phase

Lors de l’échantillonnage de seconde phase, l’objectif est d’échantillonner les points qui sont effectivement enquêtés sur le terrain. Deux plans de sondage ont été étudiés pour cette seconde phase : le SRSwor stratifié (figure 3a) et l’échantillonnage de Poisson (figure 3b).

Figure 3 – Illustration des plans de sondage utilisés pour sélectionner l’échantillon de seconde phase.

Note de lecture : Les plans de sondage utilisés sont (a) un sondage aléatoire simple stratifié, et (b) un tirage de Poisson.

Sondage aléatoire simple stratifié : Sous un SRSwor stratifié, un échantillon Sgb de Sga points est sélectionné indépendamment dans chaque strate Sga selon un SRSwor. La taille de l’échantillon ngb est déterminée en arrondissant la taille attendue de l’échantillon ngafgb à l’entier le plus proche. La taille de l’échantillon de seconde phase est prédéterminée dans le contexte du SRS stratifié. Par exemple, dans la figure 3a, les tailles d’échantillon de la deuxième phase dans les strates sont de 10 pour la strate forestière, de 4 pour la strate arbustive et de 4 pour la strate non forestière, ce qui donne une taille globale d’échantillon de 18 points pour l’échantillon de seconde phase.

Tirage de Poisson à probabilités égales : Dans le cadre de l’échantillonnage de Poisson, chaque point de l’échantillon Sa se voit attribuer une probabilité de sélection individuelle basée sur sa classification du type de végétation. La sélection de chaque point se fait indépendamment, par la génération d’un nombre aléatoire pour chacun à partir d’une distribution uniforme standard. Un point est sélectionné lorsque son nombre aléatoire est inférieur à sa probabilité d’inclusion ; dans le cas contraire, il est exclu. En raison de l’indépendance des tirages, l’échantillonnage de Poisson conduit à des tailles d’échantillon variables au sein des strates au fil des itérations. Par exemple, dans la figure 3b, chaque point des strates Forêt, Lande et Hors-forêt a une probabilité d’inclusion de 1/2, 1/4 et 1, respectivement. Après le tirage, la strate forestière a reçu 11 points, la strate arbustive 4 points et la strate non forestière 4 points, ce qui donne un échantillonnage de seconde phase de 19 points.

Étude par simulations

Dans cette section, nous étendons l’étude par simulations réalisée par Duong et al., (2025), qui était basée sur des données de simulation développées dans Duong et al., (2023). Nous considérons un scénario plus complexe et plus réaliste. L’objectif est de comparer la performance du plan de sondage de l’IFN français par rapport à d’autres plans de sondage, pour estimer le volume total de bois sur l’ensemble du territoire. Nous considérons un territoire carré I d’une superficie totale de AT = 100 km², comportant trois catégories de couverture terrestre aux formes spatiales irrégulières, comme l’illustre la figure 4. Cela contraste avec la configuration régulière de l’occupation du sol utilisée par Duong et al., (2025).

Figure 4 – Zone d’étude avec trois catégories d’occupation du sol.

Les zones en vert foncé indiquent une couverture forestière, les zones en vert clair une zone arbustive, et le reste du territoire correspond à une couverture terrestre non forestière.

Au premier degré, un échantillon de 1 000 cellules est sélectionné à probabilités égales selon cinq plans de sondage possibles : échantillonnage aléatoire simple avec (SRSwr) et sans remise (SRSwor), échantillonnage systématique (SYS), échantillonnage stratifié de taille un dans chaque strate (OPSS), et le plan de sondage de l’IFN utilisant des grilles d’interprétation. Au cours de la deuxième phase, un seul point aléatoire est tiré dans chaque cellule sélectionnée, ce qui donne un échantillon de première phase Sa de taille na = 1000 dans tous les scénarios. Lors de la deuxième phase, trois plans de sondage sont appliqués : l’échantillonnage de Poisson, l’échantillonnage aléatoire simple stratifié, et le plan français de l’IFN utilisant des niveaux de sous-ensembles. Les deux premiers plans – Poisson et SRS stratifié – sont mis en œuvre en combinaison avec les quatre plans alternatifs du premier degré (SRSwr, SRSwor, SYS et OPSS), tandis que le plan de deuxième phase de l’IFN français est appliqué exclusivement en conjonction avec le plan du premier degré de l’IFN français correspondant. Pour chaque scénario d’échantillonnage, le total est estimé à l’aide de l’équation (1), et la variance est estimée à l’aide de l’équation (2). La variance de Monte Carlo et le biais relatif de Monte Carlo des estimateurs du total et de la variance sont calculés à l’aide de 50 000 simulations.

Les résultats de la simulation sont résumés dans le tableau 1. Les résultats montrent que le plan de sondage de l’IFN français produit la variance la plus faible (1,91 × 108), ce qui démontre la grande efficacité de cette stratégie par rapport aux autres plans de sondage. En ce qui concerne l’estimation de la variance, les résultats montrent que l’estimateur de variance V^0bτ^y,postb sous SRSwr et SRSwor produisent des estimations pratiquement sans biais, tandis que V^1bτ^y,postb présente un léger biais négatif. Pour SYS, les deux estimateurs de variance présentent un léger biais positif, tandis que pour OPSS, le biais positif est modéré. Toutefois, l’estimation de la variance pour le cas de l’IFN présente un biais important – supérieur à 40 % – pour les deux estimateurs. Dans le cadre d’une configuration de simulation différente, Duong et al., (2025) ont observé un biais d’environ 30 %. Cela suggère que l’ampleur du biais de l’estimateur de variance peut être sensible aux caractéristiques de la population simulée. Les résultats confirment également que l’échantillonnage de Poisson et le SRS stratifié conduisent à des performances comparables, et que l’estimateur V^1bτ^y,postb est généralement moins conservateur que V^0bτ^y,postb (42,30 % < 49,55 %), ce qui indique que le premier peut être plus utile en pratique.

Tableau 1 – Biais relatif de Monte Carlo et variance de Monte Carlo pour les estimateurs post-stratifiés et pour les estimateurs de variance pour toutes les stratégies d’échantillonnage en se basant sur 50 000 itérations.

(SRSwor : échantillonnage aléatoire simple sans remise ; SRSwr : échantillonnage aléatoire simple avec remise ; SYS : échantillonnage systématique ; OPSS : l’échantillonnage stratifié d’une unité par strate ; IFN : échantillonnage des inventaires forestiers nationaux français) (1) désigne le biais relatif de l’estimateur post-stratifié du total estimé par Monte Carlo (moyenne sur les 50 000 itérations) ; (2) désigne l’estimation de variance de l’estimateur post-stratifié du total estimé par Monte Carlo ; (3) désigne le biais relatif de l’estimateur de variance du total V0 ; (4) désigne le biais relatif de l’estimateur de variance du total V1.

Discussion

Dans notre étude par simulations comme dans celle de Duong et al., (2025), le plan de sondage de l’IFN français conduit systématiquement à la variance la plus faible parmi toutes les stratégies d’échantillonnage comparées, ce qui souligne l’efficacité de son approche. L’échantillonnage de l’IFN basé sur une grille présente un très faible biais d’estimation, pas plus important que celui d’autres plans de sondage qui impliquent plus d’aléa dans l’échantillonnage. Toutefois, la nature spatialement systématique du plan de sondage de l’IFN français empêche la construction d’estimateurs de variance sans biais. Dans la pratique, un estimateur de variance est généralement obtenu en supposant des tirages indépendants et uniformes de points (Särndal et al., 1992 ; Wolter, 2007 ; Mandallaz, 2007 ; Duong et al., 2025), ce qui aboutit à des estimations conservatrices de la variance. Nos simulations confirment que le biais dans l’estimation de la variance peut être substantiel (42,30 % − 49,55 %), conduisant souvent à une surestimation de la variance réelle (Magnussen et al., 2020). Néanmoins, cette surestimation est généralement considérée comme acceptable dans le contexte des IFN. Cela reflète un compromis intentionnel : les IFN donnent la priorité à la régularité spatiale (et temporelle) et aux avantages opérationnels de l’échantillonnage en grille, plutôt qu’à des propriétés statistiques telles qu’une estimation non biaisée de la variance. Bien que d’autres plans de sondage puissent offrir des estimateurs de variance plus précis, ils n’ont souvent pas la structure systématique et les avantages pratiques nécessaires à une surveillance à grande échelle et à long terme. Par conséquent, les IFN acceptent généralement ce défaut du plan de sondage, en contrepartie d’une amélioration de la couverture spatiale, de la cohérence temporelle et de l’efficacité sur le terrain.

Dans cet article, les estimateurs de variance pour le plan français de l’IFN sont obtenus sous des hypothèses d’échantillonnage aléatoire, hypothèses couramment adoptées dans les inventaires forestiers. Toutefois, il existe d’autres stratégies d’échantillonnage aléatoires qui préservent également l’équilibrage spatial, telles que le plan de tessellation aléatoire stratifié généralisé (GRTS) (Stevens Jr et Olsen, 2004), la méthode du cube (Deville et Tillé, 2005), l’échantillonnage de Poisson spatialement corrélé (SCPS) (Grafström, 2012), la méthode du pivot local (LPM) (Grafström et al., 2012), et l’échantillonnage d’acceptation équilibrée (BAS) (Robertson et al., 2013). Ces méthodes d’échantillonnage spatialement équilibrées offrent des alternatives prometteuses aux plans basés sur une grille, et méritent une évaluation comparative en termes d’efficacité, de distribution spatiale et de biais dans l’estimation de la variance. Parmi elles, les méthodes GRTS et LPM sont particulièrement adaptées à la sélection d’unités spatiales telles que des cellules, tandis que les méthodes SCPS et BAS sont plus appropriées à la sélection directe de points. Le dispositif GRTS permet notamment la partition aléatoire d’une grille en sous-ensembles temporellement équilibrés, en projetant des coordonnées spatiales bidimensionnelles dans un espace unidimensionnel tout en préservant (autant que possible) les proximités spatiales. L’échantillonnage systématique est ensuite appliqué le long de la séquence unidimensionnelle, suivi d’un retour vers l’espace à deux dimensions, ce qui peut aboutir à un échantillon spatialement équilibré de cellules de la grille. Cette approche ressemble à l’échantillonnage systématique dans des plans alternatifs sur la grille, mais le dénombrement des cellules doit suivre un modèle géométrique spécifique, conduisant à un échantillon de cellules spatialement équilibré. Une comparaison entre l’approche de la grille interpénétrée de l’IFN français et le dispositif GRTS pour la sélection des cellules pourrait constituer une piste de recherche intéressante, notamment pour étudier les améliorations potentielles de l’équilibrage spatial et de la réduction des biais dans l’estimation de la variance.

Bien que la méthodologie française de l’IFN (mise en œuvre depuis 2004) soit théoriquement solide, son application pratique présente certaines limites. L’un des principaux problèmes réside dans la procédure d’estimation annuelle. Les cellules sont pré-affectées à des années spécifiques du cycle, ce qui conduit à une forme d’échantillonnage raisonné plutôt qu’à une sélection purement aléatoire. Cette approche non probabiliste peut réduire la représentativité des échantillons annuels et affecter la précision des estimations annuelles. Bien que les simulations de cette étude aient permis de recréer une variabilité des échantillons annuels entre les itérations, en pratique, seules les cellules prédésignées sont échantillonnées au cours d’une année donnée. Cela limite le caractère aléatoire et généralisable des résultats. Malgré cette amélioration, la structure hiérarchique de la grille de l’IFN français impose des contraintes. La grille comprend plusieurs niveaux de sous-échantillonnage, chaque niveau définissant le sous-ensemble de cellules sélectionnées, avec un taux de sous-échantillonnage fixe égal à la moitié du taux du niveau précédent. Par conséquent, la conception limite les fractions d’échantillonnage de deuxième phase à un ensemble discret, en particulier à des puissances de deux (1/2k, où k = 0, 1, 2…). Cela limite la possibilité d’ajuster arbitrairement les intensités d’échantillonnage pour s’aligner sur des exigences opérationnelles ou un changement de priorité.

Conclusion

L’IFN français utilise une structure de grille hiérarchique imbriquée sur une grille de base, afin de garantir un échantillonnage spatialement équilibré à la fois dans l’espace et dans le temps, combinée à un plan d’échantillonnage à deux degrés et en deux phases pour l’estimation annuelle. Une approche courante pour l’estimation de la variance, utilisée par la plupart des IFN, consiste à assimiler l’échantillonnage par grille à un échantillonnage indépendant uniforme. Notre comparaison du plan de sondage de l’IFN français avec d’autres stratégies d’échantillonnage, en utilisant les estimateurs proposés et les estimateurs de variance de Duong et al., (2025), confirme l’efficacité de l’estimateur et du plan de sondage dans son ensemble. Toutefois, l’estimateur de la variance s’est révélé très conservateur, conduisant souvent à une forte surestimation de la variance.

Appendice

Exemple numérique pour l’estimation d’un total

L’exemple est illustré par la figure 1. Supposons que la grille couvre une zone de AT = 400 000 m2, avec une taille d’échantillon de première phase de na = 40 (figure 1c). Après classification, la forêt (g = 1) comprend n1a=20  points, la zone arbustive (g = 2) comprend n2a=16  points et la zone non forestière (g = 3) comprend n3a=4  points (figure 1d). L’échantillon de seconde phase Sb comprend 18 points (figure 1f), dont n1b=9  points dans la strate forestière S1b , n2b=5  points dans la strate arbustive S2b , et n3b=4  points dans la strate non forestière S3b . Une placette circulaire d’une surface constante de Ar = 500 m2 est centrée sur chaque point 𝑥 afin d’observer les arbres qui s’y trouvent. La méthode généralisée de partage des poids (Chauvet et al., 2023 ; Bouriaud et al., 2024) est employée pour transformer le volume des arbres en valeurs de volume au niveau des points, désignées par y(x). La valeur est indiquée dans le tableau 2.

Tableau 2 – La variable synthétique y(𝑥) définie au niveau du point, obtenue à partir du volume des arbres.

L’estimateur du volume total est alors calculé selon la formule (3) :

τ^y,postb=ATnag=1GngangbxSgby(x)=ATnan1an1bxS1by(x)+n2an2bxS2by(x)+n3an3bxS3by(x)17267m3

Références

  • Bontemps, J.-D., Bouriaud, O. (2024). Take five: about the beat and the bar of annual and 5-year periodic national inventories. Annals of Forest Science. 81(1), 53. https://doi.org/10.1186/s13595-024-01268-1
  • Bouriaud, O., Brion, P., Chauvet, G., Duong, T. H. K., and Pulkkinen, M. (2024). The weight share method in forest inventories: refining the relation between points and trees. Canadian Journal of Forest Science, 54(10) :1129–1141. https://doi.org/10.1139/cjfr-2024-0007
  • Bouriaud, O., Morneau, F., and Bontemps, J.-D. (2023). Square-grid sampling support to reconcile systematicity and adaptivity in periodic spatial surveys of natural populations. Journal of Vegetation Science, 34(3): e13195. https://doi.org/10.1111/jvs.13195
  • Bouriaud, O. et Bontemps, J.-D., (2025). Principes de l’échantillonnage et des estimations dans l’inventaire forestier national annuel depuis 2025. Revue forestière française, 76(2), 149-160 . https://doi.org/10.20870/revforfr.2025.9610
  • Brooks, J. R. and Wiant Jr, H. V. (2004). Efficient sampling grids for timber cruises. Northern Journal of Applied Forestry, 21(2) :80-82. https://doi.org/10.1093/njaf/21.2.80
  • Chauvet, G., Bouriaud, O., and Brion, P. (2023). An extension of the weight share method when using a continuous sampling frame. Survey Methodology, 49(1). https://www.statcan.gc.ca/pub/12-001-x/2023001/article/00011-eng.htm
  • Deville, J.-C. and Tillé, Y. (2005). Variance approximation under balanced sampling. Journal of statistical planning and Inference, 128(2) :569–591. https://doi.org/10.1016/j.jspi.2003.11.011
  • Duong, T. H., Bouriaud, O., and Chauvet, G. (2025). A new sampling framework for spatial surveys with application to the french national forest inventory. Journal of Survey Statistics and Methodology, 13(1) :197–222. https://doi.org/10.1093/jssam/smae045
  • Duong, T. H. K., Vega, C., Renaud, J.-P., Chauvet, G., and Bouriaud, O. (2023). A large- scale artificial forest tree population to for sampling and estimation methods simulations. Zenodo, https://doi.org/10.5281/zenodo.10252806.
  • Grafström, A. (2012). Spatially correlated poisson sampling. Journal of Statistical Planning and Inference, 142(1) :139–147. https://doi.org/10.1016/j.jspi.2011.07.003
  • Grafström, A., Lundström, N. L., and Schelin, L. (2012). Spatially balanced sampling through the pivotal method. Biometrics, 68(2) :514–520. https://doi.org/10.1111/j.1541-0420.2011.01699.x
  • Gregoire, T. and Valentine, H. (2008). Sampling strategies for natural resources and the environment. Chapman & Hall/CRC, New York.
  • Kangas, A. and Maltamo, M. (2006). Forest inventory: methodology and applications, (Managing Forest Ecosystems, volume 10). Springer Science & Business Media.
  • Kermorvant, C., D’amico, F., Bru, N., Caill-Milly, N., and Robertson, B. (2019). Spatially balanced sampling designs for environmental surveys. Environmental monitoring and assessment, 191(8) :524. https://doi.org/10.1007/s10661-019-7666-y
  • Magnussen, S., McRoberts, R. E., Breidenbach, J., Nord-Larsen, T., Ståhl, G., Fehrmann, L., and Schnell, S. (2020). Comparison of estimators of variance for forest inventories with systematic sampling-results from artificial populations. Forest Ecosystems, 7 :17. https://doi.org/10.1186/s40663-020-00223-6
  • Mahalanobis, P. C. (1944). On large-scale sample surveys. Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, 231 :329–451. https://doi.org/10.1098/rstb.1944.0002
  • Mandallaz, D. (2007). Sampling techniques for forest inventories. Chapman and Hall/CRC, New York.
  • Nelson, R., Gobakken, T., Stahl, G., Gregoire, T. G., et al. (2008). Regional forest inventory using an airborne profiling lidar (< special issue> silvilaser). Journal of Forest Planning, 13(Special_Issue) :287–294. https://doi.org/10.20659/jfp.13.Special_Issue_287
  • Opsomer, J. D., Breidt, F. J., Moisen, G. G., and Kauermann, G. (2007). Model-assisted estimation of forest resources with generalized additive models. Journal of the American Statistical Association, 102(478) :400–409. https://doi.org/10.1198/016214506000001491
  • Reams, G. A., Smith, W. D., Hansen, M. H., Bechtold, W. A., Roesch, F. A., and Moisen, G. G. (2005). The forest inventory and analysis sampling frame. The Enhanced Forest Inventory and Analysis Program – National Sampling Design and Estimation Procedures. Asheville, NC: USDA, Forest Service, Southern Research Station, pp. 11–26.
  • Rivest, L.-P., Crépeau, H., and Crete, M. (1990). A two-phase sampling plan for the estimation of the size of a moose population. Biometrics, 46 :163–176. https://doi.org/10.2307/2531639
  • Robertson, B., Brown, J., McDonald, T., and Jaksons, P. (2013). Bas: Balanced acceptance sampling of natural resources. Biometrics, 69(3) :776–784. https://doi.org/10.1111/biom.12059
  • Saborowski, J., Marx, A., Nagel, J., and Böckmann, T. (2010). Double sampling for stratification in periodic inventories—infinite population approach. Forest ecology and management, 260(10) :1886–1895. https://doi.org/10.1016/j.foreco.2010.08.035
  • Särndal, C.-E., Swensson, B., and Wretman, J. (1992). Model assisted survey sampling. Springer-Verlag Publishing, New York.
  • Spurr, S. H. (1952). Forest inventory. Ronald Press, New York.
  • Stevens Jr, D. L. and Olsen, A. R. (2004). Spatially balanced sampling of natural resources. Journal of the American statistical Association, 99(465) :262–278. https://doi.org/10.1198/016214504000000250
  • Tomppo, E., Gschwantner, T., Lawrence, M., and McRoberts, R. E., editors (2010). National forest inventories: Pathways for Common Reporting. Springer Science+Business Media, London, New York.
  • Vidal, C., Alberdi, I. A., Hernández, L., and Redmond, J. J. e. (2016). National Forest Inventories: Assessment of Wood Availability and Use. Springer International Publishing.
  • Vidal, C., Bélouard, T., Hervé, J.-C., Robert, N., and Wolsack, J. (2007). A new flexible forest inventory in france. In: McRoberts, R. E., Reams, G. A., Van Deusen, P. C., and McWilliams, W. H., editors, Proceedings of the seventh annual forest inventory and analysis symposium, volume 77, pages 67-73, Washington, DC. US Department of Agriculture, Forest Service. Gen. Tech. Rep. WO-77. https://doi.org/10.2737/WO-GTR-77
  • Von Lüpke, N. and Saborowski, J. (2014). Combining double sampling for stratification and cluster sampling to a three-level sampling design for continuous forest inventories. European journal of forest research, 133 :89–100. https://doi.org/10.1007/s10342-013-0743-9
  • Wolter, K. (2007). Introduction to variance estimation. 2e ed. Springer (Statistics for Social and Behavioral Sciences).

Auteurs


Trinh H.K. Duong

https://orcid.org/0009-0001-4808-531X

Pays : France


Guillaume Chauvet

Pays : France


Olivier Bouriaud

Pays : Romania

Pièces jointes

Pas de document complémentaire pour cet article

Statistiques de l'article

Vues: 743

Téléchargements

PDF: 359

XML: 36

Citations