Robustesse à la normalisation des biopuces
Certains auteurs préconisent de compléter le pré-traitement par une normalisation des biopuces (selon la convention du papier, standardisation en ligne).
Nous avons étudié la stabilité des différentes méthodes à cette normalisation en ligne. Toutes les méthodes, à l'exception de DLDA, sont stables : les résultats de DLDA sont nettement améliorés (et senblables à ceux obtenus pour les méthodes par régression) lorsque les biopuces sont normalisées.
Cette étude a été menée sur le jeu de données "Colon".
Méthode OPG et rOPG de Xia et al. (2002)
Cette méthode, bien que développée dans le cas classique n >> p, s'applique encore dans le cas présent où le rang de la matrice de design est n, même si de nombreuses phases de son implémentation sont moins facilement justifiables lorsque les données souffrent de multi-colinéarité.bj = X+ (Y - \un \un' Y/n) où \un = (1, 1, ..., 1)' et donc Y - \un \un' Y/n correspond au vecteur Y centré.
On peut toujours supposer (et c'est ce que nous faisons) que les lignes de la matrice de plan d'experience X sont centrées. Le même centrage est appliqué à chaque nouvel individu caractérisé par un vecteur de régresseurs x.
Néanmoins, la procédure se simplifie : le critère (3.1) page 372 de Xia et al. (2002) a une solution explicite donnée par
aj=Yj
i.e. bj est le vecteur de norme minimale solution de X b = Y - \un \un' Y/n. Et ce, quels que soient les poids wi,j
En conséquence, l'estimation b de la direction de projection cöïncide avecPar suite, la procédure OPG et sa version raffinée rOPG coïncident dans le cadre où nous les utilisons (indice simple, sur les jeux de données tels que la matrice de design est de rang plein en lignes ; cette procédure d'estimation de la direction de projection, suivie de l'étape B de GSIM (cf. section du Rapport de Recherche) revient donc à la procédure suivante :
- A1] - Déterminer \alpha0 et \alpha1 les coefficients de la régression logistique de Y sur la matrice de design [\un X b] où b est le vecteur de norme 1 colinéaire à bj.
- A2] - Pour un nouvel individu x, estimer le prédicteur linéaire par \alpha0+ \alpha1 b' x.
- A3] - L'affecter à la classe 1 ssi cette quantité est positive.
Méthode MAVE-LD de Antoniadis et al. (2003)
- l'estimateur des moindres carrés dans un modèle linéaire.
- la formule basée sur l'espérance empirique donnée en section 4.2. du rapport de recherche TR 0471.
- la formule basée sur la variance empirique décrite en section 3.1. du papier de Xia et al (2002).
La solution au critère MAVE (cf. équation (2.7) de Xia et al. (2002)) est explicite, pour le cadre que nous considérons. Elle coïncide avec celle donnée ci-dessus pour OPG et rOPG.
Par suite, les résultats que nous donnons pour OPG et rOPG coïncident avec ceux que nous obtenons an appliquant l'algorithme MAVE-LD de Antoniadis et al. (2003), algorithme décrit pour la classification de puces à ADN. Plus précisément, en reprenant les notations du papier de Xia et al.
bj B =X+ (Y - \un \un' Y/n) où \un = (1, 1, ..., 1)' et donc Y - \un \un' Y/n correspond au vecteur Y centré.
aj=Yj
et bj est la constante de normalisation (puisque B est supposé de norme 1); et ce, quels que soient les poids.
En conclusion, OPG, rOPG et MAVE-LD coïncident sur les données telles que la matrice de design est de rang plein en lignes; et toutes ces méthodes reviennent à appliquer l'algorithme décrit ci-dessus A1-A2-A3.
Bibliographie
Xia, Y., Tong, H., Li, W. et Zhu, L. (2002) An adaptive estimation of dimension reduction spae. J.R.Stat.Soc.,Ser.B, 64(3):363-410.
Antoniadis, A., Lambert-Lacroix, L. et Leblanc, F. (2003) Effective dimension reduction methods for tumor-classification using gene expression data. Bioinformatics, 19(5):563:570.