Fondecyt Iniciacion 11150773

Theoretical and computational aspects of $\ell_1$-norm related statistical methods - Leverage, robustness and error bounds

ACERCA DEL PROYECTO

Este proyecto investiga ciertas propiedades notables de la norma $\ell_1$.
Tomando la regresión lineal como modelo se cuantifica el concepto de "leverage", muy relacionado a la capacidad de influencia y se estudian sus aplicaciones al análisis de grandes volumenes de datos.

La problematica

  • ¿Porqué el rey de España o la reina de Inglaterra aparecen en las portadas del mundo a la menor toma de palabra o posición, mientras que otras personas o grupos, como las militantes femen por ejemplo, necesitan causar un gran alboroto para obtener un resultado similar?

  • ¿Como grupos pequeños, favorecidos por las redes sociales, logran hacerse visibles actuando organizadamente de una cierta forma ?

  • ¿Existen genes con mayor incidencia, o 'más importantes' que otros en cuanto a la expresión de una cierta característica en los individuos o la prevalencia de una enfermedad?

  • ¿Existirán grupos de genes de menor importancia individual que activados simultanemente adquieran la misma relevancia de los genes 'importantes'?

  • ¿Como detectar la formación de grupúsculos negativos, como terrorismo en internet, que aumentan su capacidad de influir al organizarse ?

Todas estas preguntas están relacionadas a un concepto que no posee una palabra específica de uso coloquial en Chile, pero si en inglés: "leverage".
Este concepto puede asociarse gráficamente a una 'palanca', que permite amplificar la influencia producto de un esfuerzo en esa dirección. De esta forma una persona como un rey u otro dirigente importante tiene un alto leverage. Esto quiere decir que tiene una gran capacidad de influir, lo cual no significa necesariamente que sea una persona influyente. Ejemplos de esto último son monarcas o dirigentes que prefieren guardar un perfil discreto, no explotando su potencial de influir. De igual forma, los genes pueden estar activados o no, y no todos los genes al activarse tienen el mismo efecto. En el análisis de datos ocurre algo similar. Al realizar un cierto análisis, dependiendo del objetivo del estudio, habrán ciertas observaciones que ejercen una mayor influencia que otras. Estas se pueden identificar de manera relativamente 'obvia' usando técnicas ya tradicionales, como por ejemplo viendo como cambia el resultado al quitar una por una las observaciones. Por el contrario, detectar el potencial de una observación de influir en un resultado es un análisis mucho menos evidente. Detectar el potencial impacto de un gen recesivo al activarse, por ejemplo. Como cambia si no se activa sólo, sino que al mismo tiempo que otros se activan o desactivan? y si además se están estudiando miles o decenas de miles de ellos? Esta pregunta fue abordada en este proyecto, para el caso específico de la regresión lineal mediante minimización de norma $\ell_1$. Esta norma, que se obtiene sumando los valores absolutos (sin signo) de las componentes, posee propiedades particulares que permiten definir matemáticamente el leverage de una forma significativa y muy útil para la detección de observaciones individuales o grupales con alto potencial de impacto. Como era de esperar, no se trata de una tarea fácil. Mucho menos cuando se trabaja con grandes conjuntos de datos. Aún así, se obtuvieron forma de realizar estos análisis utilizando software estándar, y se extendió la aplicabilidad para grandes conjuntos de datos, permitiendo análisis realistas de problemas con datos masivos como en genómica o análisis de grandes redes en internet

Líneas de Investigación

Mayor Información

Detalles sobre el proyecto pueden ser solicitados dejando un mensaje

Institución Patrocinante:
Centro de Modelamiento Matemático
FCFM - Universidad de Chile

Beauchef 851 - Piso 7. Santiago, RM. Chile.
+56 2 297 80611