La problematica
- ¿Porqué el rey de España o la reina de Inglaterra aparecen en las portadas del mundo a la menor toma de palabra o posición, mientras que otras personas o grupos, como las militantes
femen por ejemplo, necesitan causar un gran alboroto para obtener un resultado similar?
- ¿Como grupos pequeños, favorecidos por las redes sociales, logran hacerse visibles actuando organizadamente de una cierta forma ?
- ¿Existen genes con mayor incidencia, o 'más importantes' que otros en cuanto a la expresión de una cierta característica en los individuos o la prevalencia de una enfermedad?
- ¿Existirán grupos de genes de menor importancia individual que activados simultanemente adquieran la misma relevancia de los genes 'importantes'?
- ¿Como detectar la formación de grupúsculos negativos, como terrorismo en internet, que aumentan su capacidad de influir al organizarse ?
Todas estas preguntas están relacionadas a un concepto que no posee una palabra específica de uso coloquial en Chile, pero si en inglés:
"leverage".
Este concepto puede asociarse gráficamente a una 'palanca', que permite amplificar la influencia producto de un esfuerzo en esa dirección.
De esta forma una persona como un rey u otro dirigente importante tiene un alto
leverage. Esto quiere decir que tiene una gran
capacidad de influir,
lo cual no significa necesariamente que sea una persona influyente. Ejemplos de esto último son monarcas o dirigentes que prefieren guardar un perfil discreto, no explotando su potencial de
influir. De igual forma, los genes pueden estar activados o no, y no todos los genes al activarse tienen el mismo efecto.
En el análisis de datos ocurre algo similar. Al realizar un cierto análisis, dependiendo del objetivo del estudio, habrán ciertas observaciones que ejercen una mayor influencia que otras.
Estas se pueden identificar de manera relativamente 'obvia' usando técnicas ya tradicionales, como por ejemplo viendo como cambia el resultado al quitar una por una las observaciones.
Por el contrario, detectar el
potencial de una observación de influir en un resultado es un análisis mucho menos evidente. Detectar el potencial impacto de un gen
recesivo al activarse, por ejemplo. Como cambia si no se activa sólo, sino que al mismo tiempo que otros se activan o desactivan? y si además se están estudiando miles o decenas de miles de ellos?
Esta pregunta fue abordada en este proyecto, para el caso específico de la regresión lineal mediante minimización de norma $\ell_1$. Esta norma, que se obtiene sumando los valores absolutos
(sin signo) de las componentes, posee propiedades particulares que permiten definir matemáticamente el
leverage de una forma significativa y muy útil para la detección de observaciones
individuales o grupales con alto potencial de impacto.
Como era de esperar, no se trata de una tarea fácil. Mucho menos cuando se trabaja con grandes conjuntos de datos. Aún así, se obtuvieron forma de realizar estos análisis utilizando software estándar,
y se extendió la aplicabilidad para grandes conjuntos de datos, permitiendo análisis realistas de problemas con datos masivos como en genómica o análisis de grandes redes en internet