Accueil
Blog
Comment mesurer la précision d’opérateurs de calculs d’attributs de reconnaissance de forme ?

Technologie

Comment mesurer la précision d’opérateurs de calculs d’attributs de reconnaissance de forme ?

1.introduction

L’état de l’art en reconnaissance de formes et de caractères propose un grand nombre d’études sur différents descripteurs de formes [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] mais elles sont toutes basées sur la théorie et l’expérimentation et aucune ne propose de comparaison basée sur la préservation de l’information, ce que nous appelons ici la précision. Alors que certains moments statistiques semblent efficaces pour faire de la reconnaissance de formes, du fait de leurs propriétés invariantes, nous ne savons pas à quels points ils conservent l’information utile et quelle quantité de bruit ils introduisent. Nous voulons aussi connaître la sensibilité de ces moments à la taille des images, l’épaisseur du trait ou encore l’origine du motif (fait à la main ou généré par ordinateur). Nous proposons ici une comparaison entre différents moments statistiques en utilisant une mesure de précision dans le cadre de la reconnaissance de caractères. Le reste de l’article est articulé comme suit : la section 2 détaille la théorie des moments sur lesquels nous avons travaillé, présentant aussi la transformée inverse. Dans la section 3 nous présentons notre méthode de mesure de la précision et dans la section 4, les données et le protocole expérimental avec lesquels nous avons travaillé. La section 5 présente nos résultats et nos commentaires. Nous concluons notre travail en section 6.

2.Les descripteurs de formes

2.1.Moments statistiques

Dans le domaine de la reconnaissance de formes, les moments statistiques sont largement utilisés [1] [2] [10]. Les moments cartésiens, centrés et de Zernike peuvent décrire une forme en un vecteur multidimensionnel utilisable par un classifieur. Ils décrivent le contenu d’une image par rapport à leurs axes, et sont conçus pour capturer à la fois l’information géométrique globale et détaillée à propos des formes. Nous choisissons de travailler avec de tels moments car ils présentent la possibilité d’en calculer la transformée inverse.

En considérant une image comme une fonction de distribution de densité cartésienne $f(x,y)$ (fonction bidimensionnelle continue), Hu explique dans [37] et [38] que le $(p+q)^{ième}$ moment cartésien de dimension 2 est défini en tant qu’intégrale de Riemman comme :

(2.1.1) $\begin{equation*}m_{pq}=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}x^py^qf(x,y)dxdy\end{equation*}$

Sous les conditions décrites par Shutler [8], nous savons quela séquence de moment $m_{pq}$ est définie de manière unique par $f(x,y)$ et inversement, $f(x,y)$ est définie de manière unique par $m_{pq}$ (théorème d’unicité).

Ceci implique qu’une image peut être décrite et reconstruite si l’on utilise des moments d’un rang suffisamment élevé.

La version discrète de l’équation (2.1.1), pour une image constituée de pixels $P_{xy}$ , donne :

(2.1.2) $\begin{equation*}m_{pq}=\sum_{x=1}^{M}\sum_{y=1}^{N}x^py^qP_{xy}\end{equation*}$

Où $m_{pq}$ est le moment bidimensionnel Cartésien, $M$ et $N$ les dimensions de l’image et $x^py^q$ la fonction de base.

En gardant les mêmes contraintes que pour les moments cartésiens, Shutler propose une extension aux moments centrés, la fonction $g(x,y)$ étant définie par :

(2.1.3) $\begin{equation*}g(x,y)=\sum_{p=0}\sum_{q=0}g_{pq}(x-\bar{x})^p(y-\bar{y})^q & N_{max}=p+q\end{equation*}$

Ainsi, l’équation (2.2.3) devient :

(2.1.4) $\begin{equation*}\int_{-1}^{1}\int_{-1}^{1}g(x,y)(x-\bar{x})^p(y-\bar{y})^qdxdy\equivM_{pq}\\\end{equation*}$

Enfin, formulés à partir des travaux de Zernike [11] sous la forme complexe [9], les moments de Zernike $A_{mn}$ peuvent être exprimés comme :

(2.1.5) $\begin{equation*}A_{mn}=\frac{m+1}{\pi}\sum_x\sum_yP_{xy}[V_{mn}(x,y)]^*\end{equation*}$

Où $x^2+y^2\leq1$ , $^*$ dénote le complexe conjugué et $V(m,n)$ est le polynôme de Zernike exprimé en coordonnées polaires comme :

(2.1.6) $\begin{equation*}V_{mn}(r,\theta) = R_{mn}(r)\exp(jn\theta)\end{equation*}$

avec $(r,\theta)$ définis sur le disque unité, $j=\sqrt{-1}$ et

(2.1.7) $\begin{equation*}R_{mn}(r)=\sum_{s=0}^{\frac{m-|n|}{2}}(-1)^sF(m,n,s,r)\end{equation*}$

où

(2.1.8) $\begin{equation*}F(m,n,s,r)=\frac{(m-s)!}{s!(\frac{m+|n|}{2}-s)!(\frac{m-|n|}{2}-s)}r^{m-2s}\\\end{equation*}$

2.2.Transformée inverse

Concernant la reconstruction, Shutler explique que si tous les moments $M_{pq}$ (de l’ordre $0$ à l’ordre $N_{max}$ ) d’une fonction $f(x,y)$ et d’ordre $N=(p+q)$ sont connus, il est possible d’obtenir la fonction continue $g(x,y)$ dont les moments correspondent à ceux de la fonction originale $f(x,y)$ jusqu’à l’ordre $N_{max}$ .

En utilisant la décomposition en série de Taylor :

(2.2.1) $\begin{equation*}g(x,y)=g_{00}+g_{10}x+g_{01}y+g_{20}x^2+g_{11}xy+\ldots+g_{pq}x^py^q\\\end{equation*}$

Réduite en :

(2.2.2) $\begin{equation*}\begin{array}{cc}g(x,y)=\sum_{p=0}\sum_{q=0}g_{pq}x^py^q & N_{max}=p+q\\\end{array}\end{equation*}$

il faut calculer les coefficients constants $g_{pq}$ de façon à ce que les moments de $g(x,y)$ correspondent à ceux de $f(x,y)$ en supposant que l’image soit une fonction continue bornée par $\{x,y\}\in[-1,1]$ . Pour obtenir ces limites, il est possible de normaliser les valeurs des pixels sur celles de moments cartésiens :

(2.2.3) $\begin{equation*}\int_{-1}^{1}\int_{-1}^{1}g(x,y)x^py^qdxdy\equiv M_{pq}\end{equation*}$

Ainsi, en substituant l’équation (2.2.1) dans (2.2.3) et en résolvant l’équation on obtient un ensemble linéaires dont le nombre est déterminé par l’ordre $(p+q)$ de la reconstruction. Il faut alors les résoudre pour les coefficients $g_{pq}$ en inversant les matrices :

(2.2.4) $\begin{equation*}\begin{array}{cc}M_{pq}=\sum_{i}\sum_{j}g_{ij}\frac{1}{(i+p+1)(j+q+1)}(1-(-1)^{i+p+1})(1-(-1)^{j+q+1}) & \forall(i+j)\leq N\\\end{array}\end{equation*}$

Il suffit enfin de réintégrer les coefficients $g_{pq}$ dans l’équation (2.2.1) pour reconstruire une approximation de l’image originale.



		.	. Figure 2‑1 – Image originale et sa reconstruction avec les moments cartésiens à l’ordre 2, 3, 5, 9, 11, 13, 19, 21 et 23

De la même manière que nous avons calculé l’expression inverse des moments cartésiens, les moments centrés s’obtiennent à partir de :

(2.2.5) $\begin{equation*}M_{pq}=\sum_i\sum_jg_{ij}\frac{[(1-\bar{x})^{p+i+1}+(-1)^{p+i}(1+\bar{x})^{p+i+1}][(1-\bar{y})^{q+j+1}+(-1)^{q+i}(1+\bar{y})^{q+j+1}]}{(p+i+1)(q+j+1)}\end{equation*}$

Les moments centrés n’étant finalement qu’une extension des moments cartésiens permettant l’invariance à l’homothétie, les résultats obtenus après décomposition et reconstruction seront les mêmes.

Enfin, et en suivant la même méthode, nous pouvons reconstruire la fonction originale avec les moments de Zernike. Shutler rapporte même une méthode plus rapide, basée sur la condition d’orthogonalité [9] qui considère que si tous les moments cartésiens d’une fonction $f(x,y)$ sont connus jusqu’à un ordre $N_{max}$ , il est alors possible de reconstruire une fonction discrète $\hat{f}(x,y))$ dont les moments correspondent. Ce qui donne dans le cadre des moments de Zernike (exprimé par Khotanzad dans [6]) :

(2.2.6) $\begin{equation*}\hat{f}(r,\theta)=\sum_{m=0}^{N_{max}}\sum_{n}A_{mn}V{mn}(r,\theta)\end{equation*}$

$m-|n|$ pair et $|n|\leq m$ .

Après développement nous obtenons :

(2.2.7) $\begin{equation*}\hat{f}(r,\theta)=\sum_{m=0}^{N_{max}}\sum_{n>0}(C_{mn}\cos n\theta+s_{mn}\sin n\theta)R_{mn}(r)+\frac{C_{m0}}{2}R_{m0}(r)\end{equation*}$

$C_{mn}$ composant ainsi la partie réelle de $A_{mn}$ comme :

(2.2.8) $\begin{equation*}C_{mn}=\frac{2m+2}{\pi}\sum_x\sum_yf(r,\theta)R_{mn}(r)\cos n\theta\end{equation*}$

et $S_{mn}$ la partie imaginaire :

(2.2.9) $\begin{equation*}S_{mn}=\frac{-2m-2}{\pi}\sum_x\sum_yf(r,\theta)R_{mn}(r)\sin n\theta\\\end{equation*}$

Un exemple de reconstruction après décomposition par moments de Zernike à plusieurs ordres est illustré par la Figure 2‑2. Le demi-disque obtenu à l’ordre 2 ainsi que le disque obtenu à l’ordre 3 sont liés à l’expression dans une base circulaire des moments de Zernike.




	.	.

Figure 2‑2 – Image originale et sa reconstruction avec les moments de Zernike à l’ordre 2, 3, 7, 9, 11, 13, 19, 25 et 49

2.3.PHENOMENE DE GIBBS

Nous pouvons constater sur les images présentées par la Figure 2‑1 et la Figure 2‑2, la présence d’ondulations autour de la forme à reconnaître du fait des dépassements des intervalles sur les discontinuités. Ceci est dû à l’incapacité pour une fonction continue de recréer une fonction discrète, qu’importe combien de termes finis de grand ordre, un dépassement de la fonction se produit ; c’est le phénomène de Gibbs [12]. Ce phénomène est un dépassement (ou ringing) des séries de Fourier et autres séries de fonctions sur des simples discontinuités, qui augmente jusqu’à diluer totalement l’information utile.

Ceci peut être expliqué en termes de séries de Fourier :
Soit $f:\mathbb{R}\rightarrow\mathbb{R}$ une fonction continue intégrable définie par parties, périodique de période $L>0$ .
Supposons qu’à certains points $x_0$ les limites gauche $f(x_{0^+})$ et droite $f(x_{0^-})$ de la fonction $f$ diffèrent d’une valeur non nulle de coupure $a$ : $f(x_{0^+})-f(x_{0^-})=a/neq0$ . Pour chaque entier $N\leq1$ , soit $S_Nf$ la $N$ th série de Fourier partielle :

(2.3.1) $\begin{equation*}S_Nf(x):=\sum_{-N\leq n\leq N}\hat{f}(n)e^{2\pi\sinx/L}=\frac{1}{2}a_0+\sum_{n=1}^{N}a_n\cos(\frac{N\pinx}{N})+b_n\sin(\frac{2\pi nx}{N})\end{equation*}$

où $\hat{f}$ , $a_n$ , $b_n$ sont les coefficients de Fourier. Si $x_n$ est une séquence de nombres réels convergeant vers $x_0$ comme $N\rightarrow\infty$ , et si la valeur de coupure $a$ est positive alors :

(2.3.2) $\begin{eqnarray*}\lim^+_{N\rightarrow\infty}S_nf(x_N)\leq f(x_0^+)+a.(0.089490…)\\\lim^-_{N\rightarrow\infty}S_nf(x_N)\geq f(x_0^-)-a.(0.089490…)\end{eqnarray*}$

Notons que si la valeur de coupure est négative, il faut échanger les limites supérieures et inférieures, ainsi que les termes d’égalité.

3.mesure de la precision

La mesure que nous cherchons à estimer correspond à la quantité d’information qui est prise en compte par l’attribut. Cette mesure correspond au pourcentage d’information conservé par l’attribut par rapport à l’information complète. Dans notre cas, cette mesure s’obtient par le biais d’une mesure de distance entre l’objet original et l’objet reconstruit. Toute la difficulté provient de l’application de la mesure de distance à utiliser qui diffère selon la nature de l’information extraite par l’opérateur de calcul de l’attribut. Dans le cas d’un opérateur de quantification couleur, la distance s’appuiera forcément sur la perte de complexité obtenue, estimée par une somme de différences couleurs établies dans un espace couleur adapté (id. ΔE ou ΔE₂₀₀₀dans l’espace CIE La*b*). Les différences étant calculées entre la couleur du pixel de l’image originale $P_1(x,y)$ et le pixel de l’image quantifiée $P_2(x,y)$ et la somme conduite sur toutes les positions $(x,y)$ de l’image.

Dans l’exemple qui nous intéresse, nous nous attachons à des objets binaires de couleur noire (valeur nulle) sur fond blanc. L’objet reconstruit à partir des moments que nous utilisons n’est en revanche pas binaire, mais en niveaux de gris à cause de la formulation héritée du domaine continu. La binarisation de l’objet est donc un étage supplémentaire à prévoir avant le calcul de la distance entre objet reconstruit et original.

3.1.QUELLE FONCTION DE DISTANCE ?

Soient deux images binaires $P_1$ et $P_2$ définies sur un même support spatial de taille $N\times M$ pixels avec $P_1(x,y)$ et $P2(x,y)$ nuls pour tous les pixels de l’objet représenté sur l’image originale (par voie de conséquence, $P_1(x,y)=1$ pour tous les pixels du fond).

Les premières fonctions de distance auxquelles nous pourrions penser sont les métriques de type Minkowski :

$L_1=\sum_x\sum_y|P_1(x,y)-P_2(x,y)|$ ,
$L_2=\sqrt{\sum_x \sum_y (P_1(x,y)-P_2(x,y))^2}$ ,
$L_\infty=\max_{x,y}(|P_1(x,y)-P_2(x,y)|)$ ,

les métriques en $L_2$ étant notamment bien adaptées dans notre cas où $P_1(x,y)$ et $P_1(x,y)$ sont binaires.

La formulation à retenir pour notre estimation de la précision doit être normalisée entre 0 et 1 si nous souhaitons l’exploiter dans des formalismes tels que celui du modèle des croyances transférables.

La première mesure de précision proposée est alors :

(3.1.1) $\begin{equation*}d_P(P_1,P_2)=1-\frac{1}{N.M}\sum_{x=1}^{N}\sum_{y=1}^{M}|P_1(x,y)-P_2(x,y)|\end{equation*}$

Cette métrique apparemment simple peut masquer les difficultés posées par le choix d’une bonne formulation. Bien évidemment, nous en avons formulé plusieurs et recherché différentes propositions dans la littérature. Nous pourrions, par exemple, dans le cadre d’objets binaires, proposer une expression du type :

(3.1.2) $\begin{equation*}\left\{\begin{array}{c}d_B(P_1,P_2)=\frac{1}{k_0}\sum_{x=1}^{N}\sum_{y=1}^{M}\overline{P_1(x,y)}.\overline{P_2(x,y)}\\k_0=\arg{S_i},S_i=\{(x,y),P(x,y)=0\}\end{array}\right.\end{equation*}$

où $\overline{X}$ correspond à l’inverse booléen de $X$ et $k_0$ le nombre de pixels de $P_1$ qui sont nuls donc appartenant à l’objet représenté.

Cette formulation est séduisante car uniquement centrée sur l’objet binaire original et reconstruit. La normalisation par le nombre de pixels utiles de l’objet représenté dans l’image originale lui confère en plus une meilleure sensibilité aux évolutions des opérateurs en amont. Cependant, si nous posons complètement le problème en considérant que l’image originale $P_1$ est composée de $k_0$ pixels de valeur nulle (donc $(N.M)-k_0$ pixels de valeurs non nulle) et que l’image reconstruite est composée de $l_0$ pixels de valeur nulle et $l_1$ pixels de valeur non nulle ( $l_1=(N.M-k_1)$ ). Les différents cas de figure possibles sont représentés dans le tableau suivant.

.	$l_0$	$l_1$
$k_0$	$l_{00}$	$l_{10}$
$k_1=(N.M)-k_0$	$l_{01}$	$l_{11}$

Ce tableau permet de comparer les quantités $l_{00}$ et $l_{11}$ , nombre de pixels de l’image reconstruite présentant la bonne valeur avec les erreurs de reconstruction $l_{10}$ et $l_{01}$ .

Dans le cas de la métrique issue de la distance de Minkowski d’ordre 1 :

(3.1.3) $\begin{equation*}d_P(P_1,P_2)=1-\frac{1}{NM}\sum\sum|P_1(x,y)-P_2(x,y)|=1-\frac{l_{10}+l_{01}}{NM}\end{equation*}$

Si nous analysons différents cas de figure :

Une reconstruction parfaite ( $l_{00} = k_0$ et $l_{11}=k_1$ ) : $l_{10}=l_{01}=0$ $\Rightarrow$ $d_P(P_1,P_2)=1$ ,
une reconstruction inversée ( $l_{00}=l_{11}=0$ ) : $l_{01}+l_{11}=NM$ $\Rightarrow$ $d_P(P_1,P_2)=0$ ,
le pire cas d’une reconstruction d’une image blanche ( $l_{00}=l_{01}=0$ ) : $d_P(P_1,P_2)=\frac{l_{10}}{NM}$ ,
le pire cas d’une reconstruction d’une image noire ( $l_{10}=l_{11}=0$ ) : $d_P(P_1,P_2)=\frac{l_{01}}{NM}$ ,

la dynamique de la mesure est comme évoquée précédemment fonction des ratios $1/NM$ dépendant de la taille des images considérées.

Dans le cas de la seconde métrique, l’expression de la formule pour le cas proposé devient :

(3.1.3) $\begin{equation*}d_B(P_1,P_2)=\frac{l_{00}}{k},\end{equation*}$

Ce qui donne, en reprenant les mêmes cas de figure que précédemment :

Une reconstruction parfaite ( $l_{00}=k_0$ et $l_{11}=k_1$ ) : $d_B(P_1,P_2)=\frac{l_{00}}{k}=\frac{k}{k}=1$ ,
une reconstruction inversée ( $l_{00}=l_{11}=0$ ) : $d_B(P_1,P_2)=\frac{0}{k}=0$ ,
le pire cas d’une reconstruction d’une image blanche ( $l_{00}=l_{01}=0$ ) : $d_B(P_1,P_2)=\frac{0}{k}=0$ ,
le pire cas d’une reconstruction d’une image noire ( $l_{10}=l_{11}=0$ ) : $d_B(P_1,P_2)=\frac{l_{00}}{k}=\frac{k}{k}=1$ ,

la dynamique de la mesure est ici supérieure à la première puisqu’égale à $\frac{1}{k}$ avec $k<NM$ (par définition l’objet n’est pas une image noire).

Cependant, comme le montre la séquence de cas, la mesure $d_B$ va avoir tendance à surévaluer la mesure lorsque l’image reconstruite va tendre vers un objet uniformément noir.

Malgré donc une apparente simplicité de la formulation, l’expression $d_P(P_1,P_2)$ prend en compte tous les paramètres nécessaires : la partie de l’objet similaire et la partie du fond similaire entre les deux objets, et finalement, la dynamique plus faible n’est due qu’à une prise en considération de plus d’informations dans la double somme.

3.2.BINARISATION DE L’IMAGE RECONSTRUITE

Les images reconstruites à partir des différents moments ne sont pas binaires mais continues discrétisées. Pour appliquer les mesures de distance il convient auparavant de binariser les images reconstruites. Comme nous avons pu le constater dans la première partie de ce chapitre, le niveau d’intensité moyen de l’image reconstruite peut varier de façon importante (Figure 2‑1 et Figure 2‑2), l’utilisation d’un seuil fixé a priori n’est donc pas envisageable.

Cette question est pour nous une des premières applications de la mesure de la précision locale pour déterminer le seuil de binarisation idéal. Nous avons choisi de boucler selon ce critère de précision un système cherchant le seuil idéal de binarisation (voir Figure 3‑1).

A diagram of a diagram Description automatically generated — Figure 3‑1 – Processus de calcul de seuil adaptative

Ce schéma classique de système en boucle fermée laisse libre court au choix de l’algorithme d’établissement du nouveau seuil (tracking, dichotomie etc.). Les résultats qui sont présentés par la suite correspondent à un algorithme de poursuite simple. Ils montrent selon toute vraisemblance un accroissement de la précision jusqu’à un seuil idéal, puis une décroissance une fois ce seuil dépassé.

Les figure 3‑2, 3‑3 et 3‑4 représentent chacune trois exemples de l’application de cette technique de seuillage. On retrouve en haut l’individu original et sa reconstruction, et en bas la reconstruction après seuillage accompagnée de l’évolution de la précision en fonction de la valeur du seuil. Nous avons fait le choix de prendre à chaque fois deux individus très différents au niveau de leur forme et de leur complexité pour illustrer la différence de comportement de la précision. Chaque figure est associée à une famille de moments, respectivement les moments cartésiens, les moments centrés et les moments de Zernike.

A group of black letters Description automatically generated with medium confidence — Figure 3‑2 – Original, reconstruction, binarisation et évolution de la précision en fonction du seuil – Moments cartésiens à l’ordre 15

A black squares with a blue line Description automatically generated — Figure 3‑2 – Original, reconstruction, binarisation et évolution de la précision en fonction du seuil – Moments cartésiens à l’ordre 15

A group of images of a letter Description automatically generated with medium confidence — Figure 3‑4 – Original, reconstruction, binarisation et évolution de la précision en fonction du seuil – Moments de Zernike à l’ordre 15

A collage of different shapes Description automatically generated — Figure 3‑4 – Original, reconstruction, binarisation et évolution de la précision en fonction du seuil – Moments de Zernike à l’ordre 15

Nous constatons en premier lieu sur ces figures, et ce résultat était attendu selon la théorie, que les images obtenues après reconstruction sont strictement identiques que l’on utilise les moments cartésiens ou les moments centrés. Ce phénomène est dû au fait que les bases de décomposition sont strictement identiques, la seule différence étant que les moments centrés sont une réécriture des moments Cartésiens prenant en compte les transformations géométriques de type translation. Il est donc en effet logique, pour une même image donnée, d’obtenir strictement la même reconstruction.

Notons également que, comme attendu, la précision évolue effectivement en même temps que la valeur du seuil, jusqu’à un optimal au-delà duquel elle décroît. Il existe cependant des différences dans l’évolution de la précision. D’une part, avec les moments cartésiens (et centrés), l’optimum est atteint plus rapidement pour le caractère alpha que pour le rectangle noir. L’information utile (i.e. les pixels décrivant la forme) étant mieux répartie pour un rectangle plein que pour un caractère au trait fin et de forme complexe, elle subit de fait moins fortement l’influence du phénomène de Gibbs. Nous constatons d’ailleurs très bien sur l’image reconstituée que le rectangle semble plus compact sur un fond plus clair.

Notons d’autre part l’évolution de la précision au-delà de l’optimum. Celle-ci chute brutalement avec les moments cartésiens (et centrés), tandis que la décroissance est plus douce avec les moments de Zernike. Ceci semble indiquer une meilleure conservation de l’information pour cette famille de moments, ainsi qu’une plus faible sensibilité au bruit induit par le phénomène de Gibbs.

Cependant, en s’attardant sur la valeur des optimums, en fonction de la forme ou de la famille de moments utilisés, nous nous apercevons que ceux obtenus à l’aide des moments cartésiens (ou centrés) sont meilleurs que ceux obtenus par les moments de Zernike. Cela peut être dû à une trop forte sensibilité de la méthode de calcul de la précision (et du seuillage) au bruit généré par la reconstruction. Une meilleure conservation de l’information originale par les moments Cartésiens (ou centrés) peut également en être à l’origine. Trier [10] et Shutler [8] indiquent bien que chaque famille de moments induits des déformations géométriques : les moments de Zernike ayant tendance à favoriser les arrondis (du fait de leur écriture complexe) à l’inverse des moments Cartésiens qui eux favorisent les formes angulaires.

4.donnees et protocole

Nous travaillons sur des images issues de la base MNIST, des images issues de notre propre collection (4000 caractères grecs, la moitié manuscrite, l’autre générée par traitement de texte sur différentes polices et tailles) et des images issues de la base GREC’05.

Dans l’optique de vérifier si la quantité d’information utile en fonction de la taille du symbole est importante, un changement d’échelle est appliqué sur chaque image de 1 à 3 (avec un pas de 0.1). Tous les moments statistiques sont calculés de l’ordre 1 à 35, afin de prendre en compte la dilution de l’information utile dans l’information générée par la reconstruction. Nous utilisons également un algorithme de dilatation pour obtenir quatre nouvelles images (1x, 2x, 3x and 4x) afin de procéder à un changement d’épaisseur de trait en compensation de la différence d’épaisseur entre les symboles manuscrits et ceux générés artificiellement.

Notons enfin la particularité des moments de Zernike : l’analyse et la reconstruction, ces moments s’inscrivant dans une base complexe, se font dans un cercle ; il existe alors une zone qui n’est jamais traitée, et visible en noir sur les figures vues précédemment. Afin de compenser ce phénomène, toute image analysée est d’abord recopiée au centre d’une image plus grande, de façon que l’image originale soit inscrite dans le cercle d’analyse. Ensuite, pour la comparaison des données, la mesure de la précision ne se fera que dans une fenêtre centrée, de la taille de l’image d’origine.

5.resultats et commentaires

Toutes les figures représentent l’évolution de la précision pour les 3 familles de moments, en fonction de l’ordre du moment. La Figure 5‑1 concerne les caractères manuscrits de notre propre base et les reproductions manuscrites des symboles de la base GREC’05 à gauche. Sur la droite, nous trouvons la précision obtenue en utilisant les symboles de la base de test GREC’05 et les caractères grecs générés en utilisant un logiciel de traitement de texte. La Figure 5‑2 a été générée en utilisant tous les caractères et symboles manuscrits ainsi que les images obtenues en utilisant les différentes dilatations, et la Figure 5‑7 a été générée à partir de la base MNIST et de différents niveaux de zoom, montrant l’impact du changement d’échelle.

La première observation est que les moments cartésiens et centrés donnent toujours sensiblement les mêmes niveaux de précision, ce qui est un comportement logique étant donné que la différence entre les deux écritures, comme nous l’avons vu plus haut, ne réside que dans une translation qui présente une meilleure invariance mais qui n’influe pas sur l’information conservée. De plus, les objets analysés ici sont à peu près centrés dans l’imagette qui les représente, ce qui rend caduc l’intérêt des moments centrés.

5.1.INFLUENCE DE L’ASPECT MANUSCRIT

A graph of different colored lines Description automatically generated — Figure 5‑1 – Evolution de la précision en fonction de l’ordre pour les caractères et symboles manuscrits (à gauche) et générés (à droite)

Entre les parties gauche et droite de la Figure 5‑1, la différence est la précision maximale pour les moments de Zernike, cartésiens et centrés. Pour les caractères générés et les symboles, les moments non orthogonaux préservent plus d’information que les moments de Zernike, et donnent la possibilité de recréer quasi parfaitement l’image originale en utilisant un ordre entre 15 et 20. Pour les documents manuscrits, les moments de Zernike donnent les meilleurs résultats. Ceci peut être expliqué d’une part par l’épaisseur du trait (les caractères générés sont plus épais que les manuscrits), et d’autre part par le fait que les symboles générés sont plus « angulaires » que les manuscrits. En effet, et comme l’expliquent Trier [10] et Shutler [8] du fait de leur base orthogonale et de leur forme complexe, les moments de Zernike semblent plus adaptés aux formes arrondies, telles que les caractères et les symboles manuscrits.

Afin de valider notre hypothèse sur l’épaisseur du trait, nous avons observé l’évolution de la précision en fonction de l’ordre des moments, pour les images d’origines dilatées plusieurs fois.

5.2.INFLUENCE DE L’EPAISSEUR DU TRAIT INITIAL

Observons en premier lieu que pour la Figure 5‑2, la précision maximale obtenue avec les moments de Zernike n’augmente pas avec l’épaisseur du trait.

En ce qui concerne les moments orthogonaux (moments cartésiens et moments centrés), nous pouvons voir que plus le trait est épais, meilleure est la précision (inférieure à 0.9 sans dilatation, supérieure à 0.9 après dilatation x4).

Notons sur les figures 5‑3, et 5‑4 que les caractères et symboles manuscrits sont réalisés avec de feutres ou stylos à pointe relativement fine (trait de contour fin). Notons aussi, sur les figures 5‑5 et 5‑6, que les traits des caractères et symboles générés artificiellement sont eux plus épais.

A group of letters written on a white surface Description automatically generated — Figure 5‑3 – Caractères manuscrits

A close up of a sign Description automatically generated — Figure 5‑4 – Caractères artificiels

A diagram of a cell phone Description automatically generated — Figure 5‑5 – Extrait de la base GREC’05

A diagram of a rectangle Description automatically generated — Figure 5‑6 – Copie manuelle de la base GREC’05

En commentaire de la Figure 5‑1 nous émettions l’hypothèse que les différences de précisions obtenues pour les caractères et symboles manuscrits, par rapport aux caractères dits ”artificiels”, pouvaient s’expliquer par l’influence de l’épaisseur du trait. Les résultats que nous venons d’exposer renforcent cette hypothèse : l’information utile sera d’autant mieux conservée par les moments cartésiens (et centrés) que le trait du caractère sera épais, alors que les moments de Zernike ne semblent pas sensibles à ce paramètre.

5.3.INFLUENCE DU CHANGEMENT D’ECHELLE

A graph with different colored lines Description automatically generated — Figure 5‑7 – Evolution de la précision pour différents facteurs d’échelle (x1, x2, x3)

Constatons d’abord que pour les résultats obtenus à l’échelle 1, des différences de comportement notable apparaissent entre les moments cartésiens et les moments centrés. Ce phénomène s’explique par le fait que les images de la base MNIST sont petites (20×20 pixels) ; l’information utile (les pixels appartenant à la forme d’origine) se retrouve rapidement diluée dans le bruit généré par la reconstruction (interpolations, phénomène de Gibbs, seuillage etc.). Même si en termes de coût de calcul, il peut sembler intéressant de travailler sur des images de la plus petite taille possible, nous voyons très bien qu’une certaine stabilité de l’évolution de la précision en fonction de l’ordre s’installe à partir d’un changement d’échelle de 2.

Observons aussi la courbe en dents de scie de la précision pour les petites échelles, qui se stabilise ensuite pour des échelles plus élevées. Notons également une variation de l’ordre maximal avant la chute de la précision pour les moments de Zernike. Ceci est attendu du fait que l’algorithme d’échelle génère de l’information inutile. Du fait de la nature corrélée des moments non orthogonaux, chaque moment ne porte pas que sa propre contribution à l’information individuelle. Ceci dissout l’information utile pour les ordres de moment les plus grands. Même si accroître le nombre de pixels utiles n’améliore pas significativement la précision, cela contribue tout de même à en stabiliser l’évolution.

Finalement, nous pouvons voir sur toutes les figures que la précision augmente jusqu’à chuter fortement, pour toutes les familles de moments. Ceci est dû, comme nous l’avons vu précédemment, au phénomène de Gibbs et au fait que les transformées inverses et la reconstruction se fassent avec des fonctions continues pour estimer des fonctions discrètes : un dépassement de la fonction fini par se produire.

6.conclusion

La sensibilité à l’ordre, épaisseur et taille peut être expliquée par la dilution de l’information utile dans l’information totale (partiellement expliquée par la malédiction de la dimension), et par le phénomène de Gibbs. La théorie le prévoie et nous le voyons clairement dans nos résultats. Nous ne conseillons d’ailleurs pas de changer l’échelle de l’image à cause du bruit induit par ce genre de méthode.

Les moments centrés et cartésiens semblent être les méthodes les plus précises mais elles sont également les plus sensibles aux transformations géométriques, et c’est un réel problème concernant l’écriture manuscrite et les documents techniques complexes. Ces moments demandent cependant un très faible coût de calcul comparé aux moments de Zernike. D’une part, sachant l’ordre optimal (entre 10 et 22), nous supposons qu’il est possible de proposer un traitement de reconnaissance utilisant à la fois les moments statistiques et de l’information exogène (par exemple, de l’information concernant les transformations géométriques obtenues grâce aux différents invariants). D’autre part, nous retrouvons ici tout l’intérêt de la chaîne de traitement et de ses bouclages, permettant de combiner les différents types de vecteurs de moments d’ordre le plus faible possible pour une précision maximale et une sensibilité minimale aux transformations géométriques. Dans tous les cas, le choix se faisant selon la connaissance de l’évolution de la précision, impliquant un processus d’apprentissage en amont.

A propos des différences de comportement de la précision entre les caractères manuscrits et ceux générés, il ne doit pas exister d’influence de la géométrie des symboles (comme l’angularité), seule l’épaisseur compte. Dans ce cas, il doit être possible d’ajouter de l’information sur l’individu à reconnaître (pour un faible coût de calcul) et de décider d’utiliser une dilatation si c’est un symbole manuscrit.

Il pourrait être finalement intéressant d’analyser les effets de la précision si nous utilisons ensuite une étape de classification après le calcul des moments et de trouver une relation entre la quantité d’information préservée et les performances de reconnaissance. D’autres méthodes de similarité doivent également être testées, comme d’autres métriques de distances, de comparaison entre les formes d’origine et celle reconstituée (c’est à dire une analyse au niveau de la forme et non pas une au niveau des pixels) ou alors en se basant sur des notions comme l’entropie de l’image.

Il est ainsi possible de choisir le descripteur de forme le plus approprié, en prenant en compte la précision, selon une connaissance a priori du document en cours d’analyse.

Références

[1]	S. Belkasim, M. Shridhar and A. Ahmadi, « Pattern recognition with moments invariants: A comparative study and new results, » Pattern Recognition, pp. 1117-1138, 1991.
[2]	S. Belkasim, M. Shridhar and A. Ahmadi, « Corrigendum, » Pattern Recognition, p. 377, 1993.
[3]	H. Blum, « A transformation for extracting new descriptions of shape, » Models for the Perception of Speech and Visual Form, pp. 362-380, 1967.
[4]	M.-K. Hu, « Pattern recognition by moments invariants, » in Proc. IRE (correspondence), 1961.
[5]	M.-K. Hu, « Visual pattern recognition by moment invariants, » IRE Trans. on Information Theory, pp. 179-187, 1962.
[6]	A. Khotanzad and Y. Hong, « Invariant image recognition by Zernike moments, » IEEE Trans. Pattern Anal. Mach. Intell., pp. 489-497, 1990.
[7]	A. Khotanzad and Y. Hong, « Rotation invariant image recognition using features selected via a systematic method, » Pattern Recognition, pp. 1089-1101, 1990.
[8]	J. Shutler, « Statistical Moments, » [Online]. Available: http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SHUTLER3/CVonline_moments.html.
[9]	M. Teague, « Image analysis via the general theory of moments, » Journal of the Optical Society of America, pp. 920-930, 1979.
[10]	Ø. Trier, A. Jain and T. Taxt, « Feature extraction methods for character recognition – a survey, » Pattern Recognition, pp. 405-410, 1997.
[11]	F. Zernike, « Beugungstheorie des schneidenverfahrens und seiner verbesserten form, der phasenkontrastmethode (diffraction theory of the cut procedure and its improved form, the phase contrast method), » Physica, vol. 1, pp. 689-704, 1934.
[12]	N. K. Sinha, « Chapter 3, » in Linear Systems, Wiley, 1991.