miércoles, 15 de diciembre de 2010

Detección de anomalías


¿Cuáles son los valores atípicos en los datos?
Un valor atípico es una observación que se encuentra a una distancia de otros valores anormales en una muestra aleatoria de una población. En cierto sentido, esta definición deja en manos del analista (o un proceso de consenso) para decidir lo que se considera anormal. Antes de las observaciones anormales puede ser señalado, es necesario para caracterizar las observaciones normales.
Estas dos actividades son esenciales para la caracterización de un conjunto de datos:
·         Examinar la forma global de los datos graficados de características importantes, incluyendo la simetría y las desviaciones de los supuestos.
·         Examinar datos. Estos puntos se refieren a menudo como los valores extremos. Existen dos técnicas gráficas para identificar datos anómalos (diagramas de dispersión y diagramas de caja) junto con un procedimiento analítico para la detección de valores extremos, cuando la distribución es normal.
Construcción de un diagrama de dispersión
El diagrama de caja es una pantalla gráfica útil para describir el comportamiento de los datos en el medio, así como en los extremos de las distribuciones.
El diagrama de caja se utiliza la mediana y los cuartiles inferior y superior (definida como los percentiles 25 y 75). Si el cuartil inferior es Q1 y el cuartil superior es Q2, entonces la diferencia (Q2 - Q1) se llama el rango inter-cuartil o IQ.
Diagrama de dispersión con vallas
Un diagrama de caja se construye dibujando un cuadro entre los cuartiles superior e inferior con una línea continua trazada a través de la caja para localizar la mediana. Las siguientes cantidades (llamadas vallas en ingles fences) son necesarios para la identificación de valores extremos en las colas de la distribución:
·         Valla inferior interna: Q1 - 1.5*IQ
·         Valla superior interna: Q2 + 1.5*IQ
·         Valla inferior externa: Q1 - 3*IQ
·         Valla Inferior externa: Q2 + 3*IQ
Detección de criterios de valores atípicos
Un punto más allá de la valla interior a ambos lados se considera un valor atípico leve. Un punto más allá de la valla exterior se considera un valor atípico extremo.
Ejemplo de valores atípicos en un diagrama de caja.
Ejemplo de un conjunto de datos donde N=90 observaciones, como se muestra a continuación se examina para los valores extremos:
30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441
Utilizando una herramienta para graficar como StatFit ó Excel podemos ver el siguiente diagrama de dispersión:

Los cálculos son los siguientes:
·         Mediana = (n+1)/2 el mayor punto de datos = al promedio del 45 o 46 puntos observados = (559 + 560)/2 = 559.5
·         El cuartil inferior = 0.25(N+1) = 0.25*91=22.75 por lo tanto; 411 + 0.75(436-411)=429.75
·         El cuartil de arriba= 0.75(N+1) = 0.75*91 = 68.25 por lo tanto, 739 +0.25(752-739) = 742.25
·         Rango de inter-cuartiles = 742.25 - 429.75 = 312.5
·         Valla inferior interna=429.75 - 1.5 (312.5) = -39.0
·         Valla superior interna = 742.25 + 1.5 (312.5) = 1211.0
·         Valla inferior externa = 429.75 - 3.0 (312.5) = -507.75
·         Valla superior externa = 742.25 + 3.0 (312.5) = 1679.75
Examinando los puntos de la cerca y los datos, un punto (1441) es superior a la valla interior superior y se destaca como un valor atípico leve, no hay valores atípicos extremos.

1 comentario: