keepX and the number of components

Hello,

I am using the timeOmics framework (LMMS + sPLS + clustering with getCluster) on longitudinal data.

I have a question regarding the influence of the keepX parameter and the number of components on the final number of variables (ions) assigned to clusters.

In my case:

  • with 2 components and keepX = c(10,10), I obtain about 41 ions in the clusters,

  • whereas with 3 components and keepX = c(80,80,80), more than 800 ions are assigned.

I understand that keepX controls variable selection to build the components, and that clustering is then performed in the reduced space.

However, I would like to clarify:

  1. Why are not all variables systematically assigned to clusters after projection?

  2. What is the exact selection mechanism within getCluster() (filtering based on loadings, correlation, implicit thresholds)?

  3. Is it expected to observe such a large increase in the number of clustered variables when increasing keepX and the number of components?

Thank you in advance for your help.

Bonjour,

J’utilise l’approche timeOmics (LMMS + sPLS + clustering avec getCluster) sur des données longitudinales.

J’ai une question concernant l’influence du paramètre keepX et du nombre de composantes sur le nombre final de variables (ions) retenues dans les clusters.

Dans mon cas :

  • avec 2 composantes et keepX = c(10,10), j’obtiens environ 41 ions répartis dans les clusters,

  • alors qu’avec 3 composantes et keepX = c(80,80,80), plus de 800 ions sont assignés aux clusters.

Je comprends que keepX contrôle la sélection des variables pour construire les composantes, et que le clustering est ensuite effectué dans cet espace réduit.

Cependant, je ne comprends pas précisément :

  1. Pourquoi tous les ions ne sont pas systématiquement présents dans les clusters après projection ?

  2. Quel est le mécanisme exact de sélection des variables dans getCluster() (filtrage basé sur contribution, corrélation, seuil implicite ?)

  3. Est-il normal d’observer une augmentation aussi importante du nombre de variables clusterisées en augmentant keepX et le nombre de composantes ?

Merci d’avance pour vos éclaircissements.