La Minería de Datos
- Explainer.tv (Sep 2014)
- 2 dic 2017
- 11 Min. de lectura
Sociedad de la Información - Sociedad del Conocimiento
Algunos autores denominan a la sociedad de la información como un estudio de desarrollo social el cual se caracteriza por la capacidad de sus miembros los cuales pueden ser ciudadanos, empresas y administración pública, entre otros; con el fin de obtener o compartir cualquier información de una manera rápida desde cualquier lugar y de la forma que se prefiera
Otra definición importante es la expuesta por Yoneji Masuda “Sociedad que crece y se desarrolla alrededor de la información y aporta un florecimiento general de la creatividad intelectual humana, en lugar de un aumento del consumo natural.” (Surgimiento de la sociedad de la información pag.77-78)

Inteligencia de negocios
La Inteligencia de Negocios (Business Intelligence) es el conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización. (Caralt, 2010). Estas aplicaciones contribuyen a un conocimiento valioso sobre la información operativa identificando problemas y oportunidades de negocio.
OLAP
OLAP (Online Analytical Processing, procesamiento analítico en línea): Ofrecía una solución a la necesidad de las empresas de recoger, gestionar, procesar y presentar datos multidimensionalmente para su análisis y gestión.
Es una solución utilizada en el campo de la Inteligencia Empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes volúmenes de información, para lograr este objetivo utiliza estructuras multidimensionales, conocidas como cubos OLAP, los cuales contienen datos resumidos de grandes bases de datos o Sistemas Transaccionales (OLTP). Un cubo OLAP es un vector multidimensional, de N dimensiones, en él, la información se almacena en cada una de estas dimensiones, de forma ordenada y jerarquizada, lo cual ayuda a realizar un análisis rápido de su contenido. Podemos concluir en que lo más importante de la metodología OLAP es que permite “navegar” fácilmente por la información, solicitándola con detalle preciso y con los filtros adecuados, de una manera dinámica y haciendo uso de un lenguaje de negocios.
Minería de datos
Minería de datos: La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiados datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:
Predecir ventas
Dirigir correo a clientes específicos
Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra
La generación de un modelo de minería de datos forma parte de un proceso mayor que incluye desde la formulación de preguntas acerca de los datos y la creación de un modelo para responder dichas cuestiones, hasta la implementación del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos básicos siguientes:
Definir el problema
Preparar los datos
Explorar los datos
Generar modelos
Explorar y validar los modelos
Implementar y actualizar los modelos
Ejemplos prácticos laborales y cotidianos
1.- Sistema para conocer las estadísticas de la empresa, por ejemplo, en donde laboro tenemos un sistema que nos indica la producción total en toneladas versus el defectivo, a lo cual el resultado es el total de toneladas empacadas.

2.- Otro sistema como ejemplo es SAP, igualmente en lo laboral lo utilizamos para varios módulos que integran a Ventas, Finanzas, Logística, Abastecimientos, Almacenes, y Recursos Humanos. En este sistema se administra y controla la información obtenida en la operación diaria del negocio, se obtienen reportes, informes, se realizan WorkFlow para requisiciones.
3.- El tercer ejemplo es una herramienta WEB que utilizamos para la administración y monitores de los equipos de comunicaciones y servidores, los cuales también arrojan reportes de performance, estabilidad, gráficas de fallas, y se puede accesar desde cualquier parte y dispositivo móvil con una conexión a Internet.
¿Qué es el proceso de KDD (Minería de datos)?
La Minería de Datos en realidad es el núcleo de todo un proceso llamado Descubrimiento de Conocimiento en Base de Datos (Knowledge Discovery in Databases – KDD), el cual es un proceso metodológico para encontrar un “modelo” válido, útil y entendible que describa patrones de acuerdo a la información, y como modelo entendemos que es la representación que intenta explicar ese patrón en los datos. Es importante mencionar que hablar de “modelo” como fórmula mágica no significa que existe una maestra para cualquier problemática, sino todo lo contrario, pues existen muchos métodos o algoritmos que podrían satisfacer las necesidades dependiendo de los objetivos del estudio y de los datos que se quieran analizar. Es por esta razón que un requisito para poder adentrarse en esta área es tener conocimiento de conceptos de Estadística.
La Extracción de conocimiento está principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en algún repositorio de información. No es un proceso automático, es un proceso iterativo que exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. Es un proceso que extrae información de calidad que puede usarse para dibujar conclusiones basadas en relaciones o modelos dentro de los datos.
¿Cuáles son las etapas en que se divide el proceso?
Las etapas o procesos del KDD son 5, cada una de ellas esta interrelacionada.
Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.
Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.
Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.
Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.
Existe una fase previa compuesta de 2 etapas. Esta fase previa realiza la identificación de objetivos y la fase final es de integración al negocio, de tal manera que todas las etapas quedan conformadas de la siguiente manera y son:
Identificación de los Objetivos (Fase previa)
Selección de Datos e Información (Fase previa)
Preprocesamiento (Fase final)
Transformación (Fase final)
Data Mining. (Fase final)
Interpretación y Evaluación (Fase final)
Integración al Negocio (Fase final)
La primer esta previa etapa del proceso de extracción de conocimiento involucra la identificación de los objetivos del negocio y una planificación avanzada sobre qué tipo y nivel de información se piensa capturar y qué datos adicionales se planea agregar a dicha información. Esto por sí mismo asegurará que los esfuerzos posteriores rendirán los resultados esperados.
La segunda y una vez que se definieron los objetivos de negocio, se deben seleccionar los datos y la información de los clientes que se han de utilizar. La siguiente es una lista de chequeo rápida que puede ayudar para tal efecto:
¿Son los datos adecuados para describir el o los fenómenos que el análisis está intentando explicar?
¿Hay un campo común entre los datos que serán utilizados y otros datos de otros repositorios de datos?
¿Pueden ser consolidados todos los datos en un repositorio de datos (base datos, data mart o data warehouse)?
¿Qué información interna y/o externa está disponible para el análisis?
¿Cuán actuales y relevantes son los datos para el objetivo comercial?
¿Hay alguna información redundante en los datos?
¿Existen datos demográficos disponibles?
Representación gráfica “Etapas del proceso KDD”

Tareas y técnicas de minería de datos y su correlación
Minería de datos. -
El proceso de descubrir conocimiento interesante de grandes cantidades de datos almacenadas en bases de datos, data warehouses u otro repositorio de información. (Jiawei Han, Micheline Kamber 2001).
Descubrimiento de Conocimiento en Bases de Datos
Minería de conocimiento de bases de datos
Extracción de conocimiento
Análisis de datos y patrones patrones.
Arqueología de datos
Diferentes tipos de tareas que se pueden considerar como un tipo de problema que debe ser resuelto por un algoritmo de minería de datos.



Herramientas ETL y algunos ejemplos de herramientas ETL, MOLAP, Data warehouse, DataMarts.
Hoy en día en las organizaciones existe un alto volumen de manejo de información la cual es necesaria filtrar para aligerar el manejo de la misma y así facilitar la toma de decisiones en la organización de acuerdo a sus fuentes de información, para esto en la minería de datos existen diferentes técnicas de apoyo para la selección, transformación y limpieza de los datos, las cuales en este documento se resumirán dichas técnicas y conceptos.
El concepto de selección de datos nos indica que se debe de integrar las fuentes de datos que existan para entonces realizar la identificación y selección de algunas variables que son relevantes dentro de dichos datos, y para esto se pueden utilizar técnicas de muestreo adecuadas como muestreo aleatorio simple, estratificado, sistemático, unietapico y otros más, la calidad de los datos es importante, y para eso es la selección y preparación de subconjuntos. El realizar una correcta selección de datos permitirá la que las faces que siguen puedan ser capaces de extraer conocimiento, y se pueda integrar y recopilar los datos que sean una buena fuente de información útil. Es necesario que para que el análisis de información sea sencillo la fuente sea unificada, accesible y desconectada del trabajo organizacional, es por eso que en los procesos de minería de datos es necesario que los datos este íntegros, completos y consistentes. El objetivo es seleccionar los datos relevantes del proceso.
La transformación básicamente lo su objetivo es cualquier proceso que modifique la forma de los datos, lo importantes es quitar o eliminar la mayor cantidad de datos erróneos, aunque el preparar los datos implica que ese dato tenga algún tipo de transformación, existe un concepto que se nombra alta dimensionalidad que indica que los atributos tienen muchas dimensiones con respecto a sus instancias por esta razón es importante reducir la dimensionalidad para poder hacer selección de subconjuntos de atributos, para esta actividad existen muchas técnicas como el análisis de componentes principales o el uso de mapas auto-organizativos. La transformación es prácticamente donde se realizan operaciones de agregación consolidando datos de una forma para la fase siguiente.
Dentro de la limpieza de información debemos de resolver todo tipo de redundancias que resuelva problemas de valores perdidos, así como resolver inconsistencias ya que existen muchos datos que no tienen valores para las variables y que deben de ser ignorados, por esa razón debemos de eliminar los datos que estén fuera de rango corrigiendo como ya se mencionó las inconsistencias dicho de otra manera hay que distinguir los datos necesarios de los irrelevantes así como detectar los faltantes o perdidos e identificar la causa de la ausencia de datos
Existe diferentes herramientas que apoyaran la presentación de datos al usuario, los cuales se visualizaran de manera multidimensional donde cada actividad pueda ser analizada, para algunas herramientas a utilizar son:
ETL: Indispensables para la construcción, exploración y evolución de datos, las silgas indican Extract, Transform y Load, su función es mover datos de múltiples fuentes, reformatearlos y limpiarlos, así como la carga de datos, en otras bases o sistema operacional.
Permite métodos de desarrollo que mejoran el rendimiento de los procesos donde existe un alto volumen de datos. ETL se puede utilizar en taras de bases de datos, migraciones de datos, sincronizaciones de datos o interfaces de datos con sistemas externos al negocio. Permite conectividad, capacidad de entrega y transformación de datos.
Algunos ejemplos de ETL son:
ETL Kettle
AB Initio
Benetl
BITool
CloverETL
Cognos Decisionstream
Data Integrator
OLAP: On Line Analytical Processing, son los sistemas que soportan las decisiones usando tecnologías Data Warehouse , soportan requerimientos que son de complejo análisis, analizan los datos desde diferentes punto, son caracterizados también por ser multidimensionales de datos corporativos, el cual permite la jerarquía de datos, la elección de un dato, y la visualización de los atributos que están en modo tabla, es usado en informes de negocios de ventas, marketing, informes de dirección. OLAP es una manera de accesar información filtrando indicadores de negocios, por ejemplo, por regiones o por productos. Sus funciones son segmentar, filtrar, profundizar, sintetizar y rotar la información. Una de sus grandes virtudes es la productividad de usuarios finales.
Algunas herramientas:
Mondrian OLAP server
JPivot,
Firebird RDBMS,
Enhrydra ETL,
Shark and JaWE
DataWareHouse: Se orienta a consultas de acuerdo a un análisis y transformación de datos y tiene como uso la toma de decisiones, los datos consolidados y consistentes que se orientan a históricos y de solo lectura, es también un conjunto de bases de datos. Facilita el análisis de datos. El fuerte de Data Warehouse es la estructura de información, la cual es fiable y se basa en consulta y jerarquías de información, se caracteriza por ser integrada, temática, histórica, y no volátil, se considera que analiza la información de manera multidimensional, donde la consulta predomina.
Algunas herramientas son:
Eclipse BIRT Project
Jasper
Pentaho BI
Atlas SBI
BiPoint - Business Intelligence
DataMarts: Como definición inicial es que son subconjuntos de un Data Warehouse el cual está enfocado a algo específico del negocio, esta de alguna manera restringido porque solo algunos usuarios de áreas específicas pueden accesar los datos, responde a análisis, función o necesidad de determinados de datos, está enfocado para un grupo de usuarios dentro de la organización, la implementación es similar a la de una Data Warehouse y algunas de sus características son que es poblada por usuarios, debe de ser actualizada constantemente y escalable.
¿Como nos ayudan estas tecnologías?, nos apoyan que de acuerdo a la necesidad del negocio según se requiera el análisis, administración y manejo de información, hoy en día la gran cantidad de datos que se manejan en los negocios vuelve casi imposible el manejo y administración de la misma, por lo que estas herramientas nos ayudan a poder realizar esa selección de datos, lo cual no permite que no utilicemos información que no es necesario o bien que es repetitiva e innecesaria, y aunque las tareas son complejas las metodologías de estas herramientas no ayudan a simplificar la complejidad haciendo que los procesos se vuelvan más sencillos aun cuando exista un alto volumen de datos, el usuario final será el beneficiado ya que se elevara su productividad y rendimientos dentro de la organización, y aunque cada ofrece diferentes opciones el punto final es que el manejo de datos se simplifique, se administre, el usuario sea eficiente y su productividad aumente en beneficio de la organización.
VISTA MINABLE
Vista Minable: La vista Minable es un método para recoger datos indispensables que puedan ser explotados por la minería de datos, dicha información es obtenida de varias tablas de la BD, y los cuales servirán para una acción concreta.

TECNICAS DE MINERIA DE DATOS
1.- La información se puede explotar para poder conocer los tipos de infraestructura que mayormente se afecta en un proyecto, de acuerdo a esa información se puede hacer una proyección para el siguiente año de que tipos de infraestructura presupuestar.
2.- La información obtenida también se puede explotar para conocer qué localidad está realizando más proyectos en el año e incluso cuales son los costos e inversión en dichos proyectos, esta información es valiosa para el negocio, no solo para saber cuánto gasta si no para saber que tiene que presupuestar en el año.
Adicional a lo anterior, se puede conocer que tipos de dispositivos son los que mayormente se implementan, quien es el proveedor que más proyectos ejecuta o que usuario es el que mayormente realiza solicitudes de proyectos.
La comprensión de que información es importante y cuál es el objetivo que se busca al realizar una identificación de la información necesaria y de la que no lo es importante para poder realizar el modelado de la vista minable, al evaluar la información se espera obtener el resultado del objetivo establecido para dicha información. Los puntos básicos son comprender a la organización, comprender los datos obtenidos, prepararlos y modelarlos para evaluarlos y desplegarlos para explotarlos generando algún informe
BIBLIOGRÁFICA
Erika María del Carmen Palma Serrano (Nov. 2014). Inteligencia de negocios. Business intelligence
https://www.gestiopolis.com/inteligencia-de-negocios-business-intelligence/
Ultima consulta en internet, 1 diciembre de 2017
Microsoft Technet. Conceptos de minería de datos (Analysis Services - Minería de datos)
https://technet.microsoft.com/es-es/library/ms174949(v=sql.105).aspx
Ultima consulta en internet, 1 diciembre de 2017
Javier Landa (Feb. 2016). Tratamiento de los datos.
http://fcojlanda.me/es/sin-categoria-es/kdd-y-mineria-de-datos-espanol/
Ultima consulta en internet, 1 diciembre de 2017
Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y AlvaradoPérez,
J. C. (2016). El proceso de descubrimiento de conocimiento en bases de datos.
https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&source=web&cd=22&cad=rja&uact=8&ved=0ahUKEwjGxtSR8u_VAhUFNSYKHTGIAmQ4FBAWCC0wAQ&url=http%3A%2F%2Fediciones.ucc.edu.co%2Findex.php%2Fucc%2Fcatalog%2Fdownload%2F36%2F40%2F230-1&usg=AFQjCNFeynAC0EJIo3gSzVMP4uhPhUPhmg
Ultima consulta en internet, 1 diciembre de 2017
Hernández, J. (2004). El proceso de extracción del conocimiento. En Introducción a la minería de datos. Pp.25-35. Madrid (España): Pearson Educación S.A.
https://www.researchgate.net/publication/27299791_Introduccion_a_la_Mineria_de_Datos
Ultima consulta en internet, 1 diciembre de 2017
Sinnexus. Business Intelligence
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx
Ultima consulta en internet 1 diciembre 2017
Jose Hernandez. Data-Warehousing
http://users.dsic.upv.es/~jorallo/docent/doctorat/t2a.pdf
Ultima consulta en internet 1 diciembre 2017
Waldo Hasperué (2013). Extracción de Conocimiento en Grandes Bases de Datos
http://sedici.unlp.edu.ar/bitstream/handle/10915/35555/Documento_completo.pdf?sequence=1
Ultima consulta en internet 1 diciembre 2017
Capítulo 4. Análisis de datos y presentación de resultados
http://www.ptolomeo.unam.mx:8080/jspui/bitstream/132.248.52.100/195/6/A6.pdf
Ultima consulta en internet 21 de octubre 2017
Capítulo 2. Marco teórico del problema
http://www.ptolomeo.unam.mx:8080/jspui/bitstream/132.248.52.100/195/4/A4.pdf
Ultima consulta en internet 21 de octubre 2017
コメント