Archivo

Posts Tagged ‘Integración Datos’

Evento: Crecimiento exponencial de los datos en las Universidades (Madrid, 01-02-2018)

enero 11, 2018 Deja un comentario

La gestión y la explotación eficiente de los datos
es un asunto prioritario para las Universidades

Oracle y avanttic, en su apuesta firme por el entorno académico universitario, le invitan a la jornada que se realizará en el Centro de Proceso de Datos de la Universidad Complutense de Madrid, el próximo día 1 de Febrero 2018. Este evento es una continuación del realizado el pasado mes de febrero, bajo el título “La (r)evolución del análisis de datos ha llegado a la Educación Superior”.

Las Universidades se enfrentan al reto de gestionar eficientemente la información de que disponen y a entornos de TI cada vez más desafiantes. El incremento exponencial de los datos, estructurados y no estructurados, requiere una protección y gestión optimizada para permitir su explotación eficiente y en tiempo real.

Durante el evento debatiremos sobre cómo evolucionar las estructuras de TI a fin de obtener esta mayor eficiencia, flexibilidad y protección en el almacenamiento y explotación de los datos. En esta ocasión contaremos con la presencia de la Universidad Complutense de Madrid y de la Universidad de Granada que nos explicarán cómo están abordando estos retos.

Agenda:

10:00 Acreditación y café
10:20 Bienvenida y apertura 
– 
Luis Hernández, Vicerrector de Tecnologías de la Información, UCM
10:30 Sistema Integrado de Datos Institucionales (SIDI) 
Carmen Fernández, Directora del Centro de Inteligencia Institucional, UCM
Víctor Herreros, Subdirector del Servicio Técnico de Inteligencia, UCM
11:00 Exadata, la solución al almacenamiento de datos
– Francisco Javier Viceira, Responsable Área de Bases de Datos, Universidad de Granada
11:30 Soluciones analíticas de Oracle a los retos actuales de la Universidad   
– Javier Gea, Responsable Área Business Analytics, avanttic
– José Joaquín Loza, Socio, Riemann Venture
12:30 Sistemas de Oracle que marcan la diferencia en cargas analíticas
– Manuel Vidal, Business Development Director, Oracle
13:15 Cierre y Cocktail

Calendario e inscripción:

Salón de Actos del Centro de Proceso de Datos de la Universidad Complutense de Madrid
Entre la Facultad de Físicas y la Escuela de Telecomunicaciones
Ciudad Universitaria s/n
28040 Madrid
Madrid
Jueves, 1 Febrero 2018
Inscríbase
mediante este
FORMULARIO

Oracle Data Integrator Enterprise Edition 12.1.3.0.1 – Instalación y detalle de opciones avanzadas para Big Data

Oracle anunció recientemente las opciones avanzadas de Oracle Data Integrador Enterprise Edition para Oracle Big Data. La nueva versión (12.1.3.0.1) de ODI, incorpora funcionalidades para trabajar en entornos Hadoop. En este post vamos a estudiarlas, así como la forma de instalar esta versión sobre la Virtual Machine Big Data Lite 4.1, que incluye la última versión CDH5.3.0 de Cloudera Hadoop, donde ya está instalado ODI 12.1.3, así como todos los componentes de Hadoop que necesitamos.

odi12c_logo_ds1big-data

 

Conceptos previos a tener en cuenta

Antes de entrar en detalle en la instalación de componentes Big data de ODI 12c, es conveniente hacer un resumen de conceptos previos a tener en cuenta sobre Big Data:

  • Hadoop: Es un framework para computación distribuida que permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop no es un tipo de base de datos, aunque sobre él se ejecutan ciertos tipos de bases de datos NoSQL (tales como HBase), que permiten que los datos se distribuyan sobre miles de servidores. Sobre la base del Hadoop Distributed File System (HDFS), un sistema de archivos distribuido, Hadoop permite el acceso de alto rendimiento a los datos a la vez que ofrece un cierto nivel de disponibilidad. Al igual que otras tecnologías relacionadas con Hadoop, HDFS se ha convertido en una herramienta clave para la gestión de grandes volúmenes de datos y el apoyo a las grandes aplicaciones de análisis de datos.
  • NoSQL: Es una BD del tipo Key-Value en memoria, que ofrece alto rendimiento y procesamiento ágil de la información a escala masiva. En otras palabras, se trata de una infraestructura de base de datos que ha sido muy bien adaptada a las exigencias de Big Data.
  • HBase: Es una BBDD que corre sobre Hadoop. Almacena datos estructurados y semiestructurados de forma natural, y está diseñado para correr en un clúster de ordenadores en lugar de una sola computadora. Características principales:
    • Almacenamiento NoSQL.
    • Provee una API Clave –Valor.
    • Corre en múltiples nodos en un clúster.
    • Nuestra aplicación no sabe si estamos tratando con 1 nodo o con 100 nodos.
    • HBase está diseñado y optimizado para manejar terabytes o petabytes de datos. Es una parte del ecosistema Hadoop por lo que depende de algunas de sus características clave, como redundancia de datos y procesos en segundo plano.
  • MapReduce: Es un modelo de programación para el procesamiento y tratamiento de grandes cantidades de datos no estructurados, en paralelo a través de un grupo distribuido de procesadores u ordenadores independientes (clústeres de servidores). MapReduce basa su funcionalidad en complejos algoritmos matemáticos que permite distribuir una tarea a través de múltiples nodos de manera transparente al desarrollador. El proceso MapReduce se compone de tres fases:
    • 1º fase es la función “map” o “mapper” en la que cada tarea opera sobre un único bloque HDFS y se ejecuta sobre el nodo dónde el bloque está almacenado, generando conjuntos de pares clave/valor intermedios.
    • 2º fase es la denominada “shuffle& sort” y es la encargada de ordenar y consolidar los datos intermedios generados por los “mapper” una vez han finalizado.
    • 3º fase se denomina “reduce” y opera sobre los datos generados en la fase “shuffle& sort” produciendo la salida del resultado final.
    • JobTracker: (Nodo Maestro).
    • TaskTracker: (Nodos Esclavos)
    • El nodo maestro consiste en un servicio demonio llamado JobTracker, el cual se encarga de asignar las tareas a los nodos esclavos.
  • Hive: es una interface que facilita la estructura de datos y permite la escritura de programas MapReduce. Hive utiliza una especia de lenguaje SQL denominado HiveQL, y comparte algunas de sus características, como el uso de tipos de datos primitivos o conectores JDBC y ODBC. Hive es un gran interface para cualquiera que provenga del mundo de las bases de datos relacionales.
  • Pig: es un lenguaje de flujo de datos especialmente diseñado para simplificar la escritura de aplicaciones MapReduce. PIG es una simplificación de MapReduce, que combina dos elementos: el compilador PIG y el lenguaje de script PIG Latin. PIG Latin está basado en el paradigma de flujo de datos, este paradigma se asemeja a las señales eléctricas que fluyen a través de los circuitos eléctricos. El procesamiento en Pig Latin se realiza mediante operadores tales como “Join”, “Filter”, “GroupBy” y “Union”. PIG aporta las siguientes ventajas y características:
    • Es un lenguaje similar a SQL
    • Soporta tipos complejos de datos que pueden ser embebidos como campos de una tabla
    • Soporta la creación de funciones definidas por el usuario
    • Aporta una característica especial llamada “Illustrate” que permite al desarrollador escribir código rápidamente utilizando datos de muestra
  • Spark: Se trata de otra plataforma que proporciona soporte para la implementación de aplicaciones según el modelo MapReduce sobre un clúster Hadoop, pero Spark lleva a  MapReduce al siguiente nivel en el procesamiento de datos, con capacidades como el almacenamiento y procesamiento de datos en memoria y en tiempo real, ofreciendo tasas de rendimiento varias veces más rápidas que otras tecnologías big data.
  • Oozie: Es una aplicación Web basada en Java que permite controlar y programar flujos de tareas dentro del sistema Hadoop, así como la toma de decisiones en tiempo de ejecución.

Pig y Spark support

Hasta ahora ODI12c nos permitió utilizar Hive para cualquier transformación basada en Hadoop. Con esta nueva versión, podemos utilizar también Pig  y Spark, dependiendo del caso de uso, para dar un mejor rendimiento.

Estas dos tecnologías ya están disponibles en la topología, junto con el servidor de datos Hadoop para poder definir dónde extraer los datos, y podemos importar también algunos módulos con los KM para Pig y Spark. Por lo que para trabajar con Pig y Spark con ODI, todo lo que se necesita es crear un flujo de datos lógico en el mapping y elegir su tecnología.

odi1

Pig es un lenguaje de flujo de datos, esto hace que encaje perfectamente con el nuevo modelo de programación orientado a “flujo” recientemente añadido en ODI 12c. La idea es escribir un flujo de datos en Pig latín, donde la carga de trabajo se ejecutará en MapReduce.

Leer más…