martes, 26 de octubre de 2010

Medidas de Tendencia Central


Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. En este caso se incluyen también los cuantiles entre estas medidas.

La media aritmética (o simplemente media)


La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.

La media resume en un valor las características de una variable teniendo en cuenta todos los casos. Solamente puede utilizarse con variables cuantitativas.

Por ejemplo, las notas de 5 alumnos en una prueba:

Alumno   Nota

 1             6,0              ·Primero, se suman las notas:

 2             5,4               6,0+5,4+3,1+7,0+6,1 = 27,6

 3             3,1             ·Luego el total se divide entre la cantidad de alumnos:

 4             7,0                27,6/5=5,52

 5             6,1             ·La media aritmética en este ejemplo es 5,52


Propiedades

Las principales propiedades de la media aritmética son:
 

  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.

Inconvenientes de su uso

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:

  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
  • La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.

Moda

La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta. En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.


Propiedades
Sus principales propiedades son:

  • Cálculo sencillo.
  • Interpretación muy clara. 
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. 

Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".
Inconvenientes
 

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
 

  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana

 La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor. Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2.

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales.

martes, 12 de octubre de 2010

Graph clustering (Agrupamiento de los grafos)

A continuación se hace una recopilación de los aspectos más importantes del artículo de investigación Graph Clustering (Agrupación de los gráfos) por la Doctora Satu Elisa Scheaffer.

Abstracto

En este estudio se resumen las definiciones y métodos para la agrupación de los grafos, esto es, encontrar un conjunto de vértices relacionados en grafos. También en este artículo se revisan las diferentes definiciones y se describe que son los agrupamientos en un grafo y la medición de la cantidad de agrupaciones.
La idea es presentar los algoritmos globales para producir un agrupamiento para el completo conjunto de vértices de una entrada de un grafo, después se discuten las tareas de identificar un agrupamiento para un específico vértice para una computación local. Algunas ideas sobre las áreas de aplicación de agrupamiento de algoritmos de grafos están dadas.

También se discute la problemática de evaluar el agrupamiento y se hace una evaluación comparativa sobre el agrupamiento de algoritmos.
Además se habla en este artículo sobre la terminología para facilitar la discusión, como son la complejidad computacional, la aproximación de los algoritmos, la teoría de grafos, las cadenas de Markov.

Introducción

Los datos no uniformes carecen de estructura debido a la heterogeneidad de los datos. El proceso para identificar esta estructura en términos de agrupar los datos elementales es llamado clustering (agrupamiento), y es también llamado clasificación de los datos (data classification). El resultado de agrupar es llamado clusters. El agrupamiento es usualmente basado sobre similitudes de mediciones definidas para los elementos de los datos. El agrupamiento de los datos esta estrechamente relacionado en aprendizaje no relacionado en reconocimiento de patrones. Una tarea básica sobre el aprendizaje no supervisado para la clasificación del conjunto de los datos dentro de dos o más clases basadas sobre lo similar de las medidas en los datos.

Los grafos son estructuras formadas por un conjunto de vértices (también llamados nodos) y un conjunto de lados que son conexiones entre pares de vértices. El agrupamiento de los grafos es una tarea de agrupar los vértices de los grafos dentro en agrupaciones dadas, considerando la estructura de los lados dentro de cada agrupamiento.

Como el campo del agrupamiento de los datos a aumentado y se ha hecho bastante popular y el número de publicaciones propuestas para el agrupamiento de algoritmos así como, el reporte de aplicaciones es alto, daremos una explicación de las metodologías que son comúnmente aplicadas y mencionaremos algunas publicaciones que hacen referencia a cada rama de la investigación.

Agrupamiento de los datos

Formalmente, dado un conjunto de datos, el objetivo de agrupamiento es dividir los datos en un conjunto de agrupaciones tales que los elementos asignados a un grupo determinado son similares a la conexión en algún predefinido sentido. Sin embargo, no todos los grafos tienen estructura con agrupamiento natural. No obstante, la salida de un algoritmo de agrupamiento es el agrupamiento para cualquier grafo de entrada. Si la estructura de los grafos esta completamente uniforme, con los lados eventualmente distribuidos sobre un conjunto de vértices, el agrupamiento computarizado para cualquier algoritmo será un poco arbitrario. La calidad de las medidas ayuda a determinar si hay agrupamientos significantes presentes en el grafo y si hay un agrupamiento revelado.

Conclusión de las observaciones

En este estudio se han revisado algunos de las definiciones esenciales y las técnicas de agrupamiento de grafos. En general, esto parece que muchas de las buenas medidas de agrupamiento están entrelazadas: los métodos son en ese sentido un espectro de métodos que en consecuencia son relacionados a caminos aleatorios que modelan el comportamiento de redes electrónicas y también sirven para hacer intermediación a los cálculos, entre otras cosas. Esas conexiones teóricas entre muchos de los métodos dada la razón para creer que nosotros estamos en el camino correcto: el campo del agrupamiento de los grafos parece estar confundiendose fundamentalmente de definiciones similares, aunque algunos de los puntos de partida para los algoritmos son muy distantes.

Se resolvieron tanto los enfoques globales y locales y se discutió sobre el delicado problema de seleccionar un apropiado método para la tarea que nos ocupa, seleccionar buenos valores de parámetros, y evaluar la calidad del agrupamiento de los datos. Las herramientas ya están disponibles y son tan variadas como las aplicaciones del agrupamiento de los grafos, aunque queda mucho por hacerse.

Data Werehouse y servicios OLAP (arquitectura, conceptos y soluciones)

Los sistemas de data werehouse se han convertido un una pieza clave en el componente de la información en los sistemas de arquitectura, en el cual la información juega un papel crucial al construir sistemas para la toma de decisiones. Mediante la recolección y consolidación de una variedad de datos de fuentes internas y externas de información, el data werehouse a intentado proveer una homogeneidad en la información básicamente para la planificación y toma de decisiones. Recientemente somos testigos de lo rápido que han ido creciendo el numero de productos de almacenamiento de datos y servicios que se ofrecen dia con dia, así como la aceptación de estas tecnologías por parte de la industria.

Dentro pocos años, el data werehousing se ha enfrentado a cambios enormes desde simples repositorios centralizados usados para almacenar transacciones de dinero en efectivo hasta plataformas para la integración de los datos, federación, y análisis sofisticados. Ahora en dia, las tecnologías con data werehousing se utilizan con mucho éxito en las industrias, incluyendo la fabricación al pormenor, servicios financieros, la banca, la telecomunicación, el cuidado de la salud y así sucesivamente.

La tecnología de data werehousing esta actualmente muy activa en el campo de la investigación. Los problemas de investigación asociados con la creación, mantenimiento, y uso de la tecnología de data werehouse son particularmente similares a los específicos de las bases de datos. De hecho, data werehouse se puede considerar como el “gran” sistema de bases de datos con funcionalidad adicional. Sin embargo, los problemas conocidos como la selección de índices, el particionado de los datos, la integración de datos, la optimización de las consultas, han recibido una atención renovada en el almacenamiento de investigación. Algunos problemas de investigación son específicos para el data werehousing: la adquisición de los datos y la depuración de los datos, la actualización de los datos, y la evolución del esquema data werehousing, la calidad del manejo de los datos, etcétera. Por lo que es importante conocer las nuevas tendencias y el futuro del desafío en el contexto de los sistemas de próxima generación de almacenamiento de datos.

Es importante conocer algunos aspectos el modelamiento y diseño de sistemas de data werehousing.

Ahora en dia la economía esta caracterizada por el rápido y continuo cambio de mercados y oportunidades de negocios. Por lo tanto, con el fin de tener éxito es esencial para una empresa tomar las decisiones de negocio de una manera correcta y rápida. La toma de decisiones en los negocios se basa en el análisis del pasado y las condiciones actuales de una empresa, además del análisis de mercado y las predicciones del futuro. Para este fin, varias colecciones de datos de una empresa son analizadas. Típicamente, la operación de los datos son almacenados dentro de una empresa en los sistemas de almacenamiento (subsistemas) que se encuentran geográficamente distribuidos, los cuales son heterogéneos y autónomos.

La heterogeneidad del almacén de los datos significa que ellos provienen de diferente proveedor de software, los cuales son implementados en diferentes tecnologías (C, C++, .NET, Java), estos ofrecen diferentes funcionalidades (bases de datos, bases de datos ODBC, páginas web, archivos de texto.) y estas usan diferentes modelos (base de datos relacionales, orientadas a objetos, semi-estructuradas, etc.) y diferentes técnicas de almacenamiento, los cuales a su vez son instalados sobre diferentes sistemas operativos, usando protocolos de comunicación diferentes.

La autonomía del almacenamiento de los datos implica que ellos son a menudo independientes desde entre si y permanecen bajo control separado e independiente; esto es, un administrador del sistema local puede decidir cuales datos locales están disponibles desde afuera del sistema.

La gerencia de una empresa requiere una completa vista de todos los aspectos de la compañía, por consecuencia esto requiere acceso a todos los posibles datos de interés almacenados en múltiples subsistemas. Sin embargo, un análisis del almacenamiento de los datos en la distribución, heterogeneidad, y subsistemas autónomos es probable que sea difícil, lento e ineficiente. Por eso, la habilidad para integrar la información desde múltiples fuentes de datos es crucial ahora en dia para los negocios.

Uno de los mas importantes enfoques para la integración de las fuentes de datos es basado sobre la arquitectura de data werehouse. En esta arquitectura, los datos provienen desde múltiples bases de datos externas (EDS) que son extraídas, filtradas, fusionadas, y almacenadas en un repositorio central, a lo que se llama data werehouse (DW). Los datos son también enriquecidos por información recopilada e histórica. Desde un punto de vista tecnológico, el data werehouse es una enorme base de datos de varios miles de Gigabytes por varias docenas de Terabytes. Gracias a esta arquitectura, los usuarios operan sobre un local, homogéneo, y centralizado repositorio que reduce el tiempo de acceso a los datos. Por otra parte, los datos son independientes a las EDSs que pueden estar temporalmente no disponibles. Sin embargo, el data werehouse tiene que mantenerse hasta la fecha con respecto al contenido de las EDSs, para ser periódicamente renovada.

El contenido de un data werehouse es analizar para llamar en línea el proceso analítico (OLAP) de las aplicaciones para el propósito de descubrir tendencias, patrones de comportamiento, y anomalías, así como para encontrar dependencias ocultas entre los datos. Los resultados de esos análisis son entonces la base para hacer varias decisiones de negocios. El análisis de mercado de demanda y abastecimiento es uno de los importantes pasos en tomar decisiones estratégicas de los negocios. Del mismo modo, un análisis de la evolución y el curso de enfermedades, así como el impacto de diferentes medicamentos en el campo de las enfermedades es indispensable a fin de elegir los métodos mas eficaces de tratamiento. Muchas otras aplicaciones incluyen, entre otras, el mercado de valores, la banca, las aseguradoras, el manejo de la energía, y la ciencia. El Data werehouse y las aplicaciones con servicios OLAP son el componente núcleo de los sistemas para la toma de decisiones.

Desde finales de 1980, cuando la tecnología del data werehouse se desenvolvió, la mayoría de las grandes y medianas empresas en todo el mundo han estado construyendo sus propio data werehousing en sus sistemas de infraestructura de información y han sido exitosos en aplicar tecnología en los negocios. Importantes manejadores bases de datos comerciales están disponibles (Oracle 10g, Sysbase IQ, MS SQL Server, SAP Business Werehouse, etc.) Incluyendo el Data werehousing y la tecnología OLAP en sus motores de bases de datos. Sin embargo, a pesar de que hay algunos logros importantes en esta tecnología, todavía es y será una investigación muy atractiva en el campo de la tecnología.