errratumSFDS.html

Cette méthode, bien que développée dans le cas classique n >> p, s'applique encore dans le cas présent où le rang de la matrice de design est n, même si de nombreuses phases de son implémentation sont moins facilement justifiables lorsque les données souffrent de multi-colinéarité.
On peut toujours supposer (et c'est ce que nous faisons) que les lignes de la matrice de plan d'experience X sont centrées. Le même centrage est appliqué à chaque nouvel individu caractérisé par un vecteur de régresseurs x.
Néanmoins, la procédure se simplifie : le critère (3.1) page 372 de Xia et al. (2002) a une solution explicite donnée par

Par suite, la procédure OPG et sa version raffinée rOPG coïncident dans le cadre où nous les utilisons (indice simple, sur les jeux de données tels que la matrice de design est de rang plein en lignes ; cette procédure d'estimation de la direction de projection, suivie de l'étape B de GSIM (cf. section du Rapport de Recherche) revient donc à la procédure suivante :

A1] - Déterminer \alpha_⁰et \alpha₁ les coefficients de la régression logistique de Y sur la matrice de design [\un X b] où b est le vecteur de norme 1 colinéaire à b_j.

A2] - Pour un nouvel individu x, estimer le prédicteur linéaire par \alpha₀+ \alpha₁ b' x.

A3] - L'affecter à la classe 1 ssi cette quantité est positive.

La solution au critère MAVE (cf. équation (2.7) de Xia et al. (2002)) est explicite, pour le cadre que nous considérons. Elle coïncide avec celle donnée ci-dessus pour OPG et rOPG.
Par suite, les résultats que nous donnons pour OPG et rOPG coïncident avec ceux que nous obtenons an appliquant l'algorithme MAVE-LD de Antoniadis et al. (2003), algorithme décrit pour la classification de puces à ADN. Plus précisément, en reprenant les notations du papier de Xia et al.
b_j B =X⁺ (Y - \un \un' Y/n) où \un = (1, 1, ..., 1)' et donc Y - \un \un' Y/n correspond au vecteur Y centré.

a_j=Y_j

et b_j est la constante de normalisation (puisque B est supposé de norme 1); et ce, quels que soient les poids.

En conclusion, OPG, rOPG et MAVE-LD coïncident sur les données telles que la matrice de design est de rang plein en lignes; et toutes ces méthodes reviennent à appliquer l'algorithme décrit ci-dessus A1-A2-A3.

Bibliographie
Xia, Y., Tong, H., Li, W. et Zhu, L. (2002) An adaptive estimation of dimension reduction spae. J.R.Stat.Soc.,Ser.B, 64(3):363-410.

Antoniadis, A., Lambert-Lacroix, L. et Leblanc, F. (2003) Effective dimension reduction methods for tumor-classification using gene expression data. Bioinformatics, 19(5):563:570.