Archive

Archivo de Autor

Nuevas características OBIEE 12.2.1.1 y BI Publisher 12.2.1.1

noviembre 25, 2016 Deja un comentario

Hace un par de meses Oracle incorporó características nuevas e interesantes en la reciente versión OBIEE 12.2.1.1.0, sobre todo en las opciones de dashboard, repositorio, conexiones ODBC y BI Publisher.

Se puede desplegar como una actualización de 12.2.1 ejecutada por el Asistente de actualización (Doc ID 2.153.433,1)  o como una nueva instalación.

oracle-bibiplogo12c

A continuación enumeramos las principales nuevas características OBIEE 12.2.1.1.0:

1.Dashboard con subpáginas:

Nueva capacidad de agregar páginas secundarias dentro de los cuadros de mando. Esta característica permitirá a los diseñadores crear múltiples páginas secundarias para cada página del panel.

1

En la ventana “Add Subpage”, se pueden nombrar páginas secundarias y añadir una descripción.

2

Una vez que se haga clic en OK, la subpágina se añadirá a la página del panel para poder añadir contenido a la página secundaria.

2.Repositorio (RPD): Nueva opción de habilitar datos Fragmentados en tablas

Una de las novedades interesantes para los desarrolladores es la capacidad de mejorar el rendimiento de las fuentes de tablas lógicas fragmentadas, mediante el uso de los datos con la característica de activación por Fragmento.
Leer más…

Oracle Data Visualization Desktop – Analice sus datos desde su escritorio

septiembre 23, 2016 2 comentarios

Recientemente Oracle ha puesto a nuestra disposición una potente y fácil herramienta de visualización de datos, que desde nuestro escritorio nos permite explorar, mezclar y compartir distintas visualizaciones de datos. Oracle la ha llamado Data Visualization Desktop (DVD) ya que se instala directamente en nuestro propio ordenador con Windows 7, 8 o 10.
2
DVD nos permite usar todas sus capacidades sin ningún requisito de infraestructura de servidor de middleware remoto.

1Se instala, se abre y se cierra al igual que cualquier otra aplicación de escritorio, permitiéndonos crear visualizaciones de datos, incluso históricas, desde una variedad de fuentes, incluyendo hojas de cálculo, bases de datos y aplicaciones BI. Pudiendo combinar y mezclar los datos deseados, usando visualizaciones inteligentes, que nos facilitan ver rápidamente patrones de interés, para seguir profundizando en nuestros análisis, seleccionando y filtrando datos destacados, mediante informes maestros o sincronizando la navegación del detalle de todos los resultados visuales deseados a la vez.

Leer más…

OBIEE – Cómo configurar y mejorar su rendimiento con Big Data

junio 29, 2016 4 comentarios

En los últimos meses me he vuelto fan de la tecnología Big Data con los productos de Oracle y me parece interesante evaluar la evolución de Oracle en la tecnología de OBIEE para trabajar con Big Data.

En uno de mis últimos post he hablado sobre el papel de Big Data Discovery, pero OBIEE también juega un papel importante (a través de su capacidad para analizar grandes volúmenes de datos y con visualizaciones de modelos de datos en informes y cuadros de mando) lo que significa, en la práctica, que OBIEE es capaz de conectar a fuentes de datos Hadoop con Hive e Impala.

Ahora bien, ¿cómo podemos configurar OBIEE para obtener el mejor rendimiento en uso de sus componentes visuales y cómo obtener la mejor eficiencia de análisis de una gran cantidad de datos estructurados?

Para dar una respuesta más en detalle, vamos a profundizar en el uso de los controladores de Hive y Spark actuales, y su configuración con OBIEE, para obtener esta eficiencia.

apache-spark1

 

Comparación de la evolución de OBIEE con Big Data

  • OBIEE 11.1.1.7 dio un primer paso en Big data, con su capacidad para utilizar Apache Hive como una fuente de datos, permitiendo acceder a fuentes de datos Hadoop a través de dos tecnologías relacionadas: Hive y MapReduce.

La desventaja es que Hive, es generalmente considerado demasiado lento para ad-hoc, usando consultas y HiveServer1 con controlador ODBC de OBIEE.

Pero una de las ventajas, que nos ofrece esta versión es su seguridad, porque Hadoop no es un sistema intrínsecamente seguro, está protegido solamente por seguridad de red, lo que significa que una vez establecida la conexión, se tiene acceso completo al sistema, pero para ello se crea la Seguridad Kerberos,  como una opción de instalación del software,  el cual toma medidas adicionales para autenticar con el cliente Cloudera Hadoop, el cual se puede configurar desde el BI Administrator de OBI.

  • OBIA 11.1.1.8.1 salió a principios de mayo de 2014, con resultados muy similares en el potencial Big Data.
  • OBIEE 11.1.1.9 salió en mayo de 2015 (también queremos hacer mención a OBIEE 12c, que aparte nos trae análisis avanzados con preconstrucción de nuevas funciones simples en R y Extension Framework, que no vamos a profundizar porque ya se ha comentado en anteriores post, introduciendo nuevas características de compatibilidad de HiveServer2 y Cloudera Impala (lo cual promete mejoras de rendimiento notables sobre Hive). En uso de servidores Linux (con los controladores DataDirect ODBC) y Windows (importaciones de Metadatos desde Cloudera Impala usando controlador ODBC de Windows), pudiendo descargar la herramienta de administración directamente desde Cloudera, y con la posibilidad de utilizar el Apache Spark, para evitar esa lentitud de informes ad-hoc, y muchas más ventajas, las cuales nos permiten plantearnos unas serie de preguntas:

¿Os gustaría?

  • ¿Ejecutar programas 100 veces más rápidos en memoria o 10 veces más rápido en disco?
  • ¿Escribir aplicaciones en Java, Python o Scala de manera rápida a la vez que podéis construir aplicaciones paralelas que aprovechan un entorno distribuido?
  • ¿Combinar SQL, streaming y análisis complejos en una misma aplicación?

Todo esto es lo que puede hacer Apache Spark. Por ello, en conjunto con OBIEE su objetivo es ser capaz de ejecutar consultas interactivas en fuente de datos desde Spark (con procesamientos en memoria 100 veces más rápidos que los conseguidos utilizando MapReduce) y admitiendo leer o escribir datos almacenados en el Apache Hive.

 

Leer más…

Características OBIEE 12C, sus principales novedades

noviembre 20, 2015 1 comentario

Hace pocos días que Oracle ha puesto a nuestra disposición el nuevo Oracle Business Intelligence Enterprise Edition 12c  (OBIEE 12.2.1.0.0) a través de “OTN” (23/10/15)  y también disponible en “Oracle Software Delivery Cloud” (29/10/15).

1

 

Tras realizar la instalación y estudio completo de su renovada plataforma, podemos destacar algunas de sus mejoras y beneficios:

  1. Nuevas capacidades de visualización de datos
  2. Administración
  3. Servidor BI
  4. Funcionalidades en los Data Sources: Hyperion ADM, Impala, Spark
  5. Gestión de los metadatos, Mashup XSA (arquitectura inteligente de carga)
  6. Procesos in-memory BI Server y gráficos HTML-5
  7. Análisis avanzados: preconstruction de nuevas funciones simples en R y Extensión Framework
  8. Aspecto Visual
  9. Usabilidad
  10. Seguridad

Leer más…

Big Data Discovery, su papel en proyectos con volúmenes grandes de datos

septiembre 28, 2015 Deja un comentario

Oracle Big Data Discoverycon sus respectivas vinculaciones a Hadoop, Oracle Big Data SQL 1.1 y Oracle NoSQL Database 3.2.5, es una de las herramientas que ha introducido Oracle en el mercado, para el fortalecimiento y reestructuración de los grandes almacenes de datos en las empresas. Gracias a ella, se puede ver y entender rápidamente el potencial de los datos en bruto desde Hadoop  y convertir los datos en conocimiento en cuestión de minutos.

Sin una gran dificultad de aprendizaje, y mediante un diseño gráfico muy intuitivo, se puede compartir y obtener datos realmente interesantes.

1

Funciona de forma nativa con Hadoop, transformando datos rápidamente y procesando el conocimiento del negocio en cinco fases. Cualquiera puede encontrar, explorar, transformar y analizar datos para obtener nuevas perspectivas, las cuales pueden ser compartidas en proyectos de gran interés para el negocio.

 

Coherencia de la analítica Big Data

Oracle Big Data Discovery ofrece tremenda velocidad a escala masiva, permitiendo dedicar un 20% al desarrollo y un 80% al análisis.

Big Data Discovery está compuesto por los siguientes tres componentes básicos y es posible su interacción con otras herramientas:

2

  • Discovery Studio, es una interfaz de usuario intuitiva y visual para encontrar y explorar grandes volúmenes de datos, de tal forma que cualquier persona pueda rápidamente transformar, descubrir y compartir el valor del conocimiento del negocio a gran escala.
  • DGraph, es la tecnología líder en la industria Oracle Big Data; (Endeca Server); que simplifica la complejidad de organización y búsqueda de datos para su análisis.
  • Capa de Procesamiento de Datos, utiliza el componente Spark de Hadoop para realizar perfiles de datos a alta velocidad, transformación y enriquecimiento de la información.
  • Diseñado para trabajar junto a:
    • ODI 12c y GoldenGate: una vez que haya definido sus flujos de datos principales de transformación.
    • Oracle Big Data SQL: acceso BI de la aplicación a la totalidad del “Almacén de datos” (DWH + Hadoop).

La mejor manera de pensar en Big Data Discovery es “Endeca Hadoop”

La herramienta web Discovery Studio es una versión de Endeca Server para:

  1. Analizar y visualizar conjuntos de muestras de datos desde el clúster Hadoop, el cual ejecuta sus elementos sobre DGraph (Servidor Endeca) en uno o más nodos.
  2. Leer datos desde Hadoop mediante Hive y luego escribir de nuevo las transformaciones planificadas (utilizando Apache Spark para recuperar datos de Hadoop).
  3. Transformar esos datos de forma que sea más adecuado para su análisis con Big Data Discovery.

3

Leer más…

Análisis en profundidad de Oracle Business Intelligence Cloud Service (BICS)

Casi el 70 % de las medianas y grandes empresas ya usan soluciones en la nube o piensan adoptarlas en los próximos 12 meses. Por ello Oracle ha lanzado el nuevo Oracle Business Intelligence Cloud Service (BICS), una parte de Oracle Cloud Analytics, que ofrece la suite de análisis en la nube más completa disponible hoy en día, incluyendo capacidades móviles.

Oracle BICS es la primera plataforma BI en la nube que hace análisis en todos los dispositivos. Permite combinar fácilmente datos de diversas fuentes y crear rápidamente aplicaciones interactivas de análisis con ellos, que podremos publicar en los cuadros de mando, fusionando conjuntos de informes y gráficos interactivos. Adicionalmente, BICS cuenta con una herramienta de análisis interactivo más vivo, nueva en la pila tecnológica de Oracle, llamada Visual Analytics.

BICS_1

¿Por qué Oracle BICS?

  • Basado en la contrastada tecnología de OBIEE, ayuda al usuario a crear rápidamente ideas interactivas, con todo tipo de visualizaciones de datos.
  • Multi-tenant: arquitectura en la que una única instancia de OBI permite publicar múltiples proyectos.
  • Utiliza Oracle Application Express (APEX)sistema de desarrollo de aplicaciones de base de datos basada en una navegación rápida
  • Hay dos posibilidades para la integración con Oracle Database Cloud Service (DBCS):
    • Oracle Database Cloud Service (Esquema): Servicio de esquema de base de datos, es la plataforma Oracle Service Cloud que proporciona un único esquema de base de datos, totalmente gestionado por Oracle.
    • AOracle Database Cloud Service (Full): Un Servicio de Cloud más personalizado y privado para cada cliente, permite el acceso a varios esquemas de bases de datos en el cloud.

B

Características:

BICS está optimizado para la nube y permite a los usuarios combinar datos de diversas fuentes, incluyendo otras soluciones en la nube.

Se pueden cargar los datos de múltiples maneras:

  • Desde la importación de archivos:
  • A través de auto-servicio de integraciones de datos en curso.
  • Carga de archivos basados en web.
  • Realización consultas directas de carga de ficheros
  • Herramientas de Integraciones de ETL
  • Poder instalar aplicaciones de terceros

Leer más…

Oracle Data Integrator Enterprise Edition 12.1.3.0.1 – Instalación y detalle de opciones avanzadas para Big Data

Oracle anunció recientemente las opciones avanzadas de Oracle Data Integrador Enterprise Edition para Oracle Big Data. La nueva versión (12.1.3.0.1) de ODI, incorpora funcionalidades para trabajar en entornos Hadoop. En este post vamos a estudiarlas, así como la forma de instalar esta versión sobre la Virtual Machine Big Data Lite 4.1, que incluye la última versión CDH5.3.0 de Cloudera Hadoop, donde ya está instalado ODI 12.1.3, así como todos los componentes de Hadoop que necesitamos.

odi12c_logo_ds1big-data

 

Conceptos previos a tener en cuenta

Antes de entrar en detalle en la instalación de componentes Big data de ODI 12c, es conveniente hacer un resumen de conceptos previos a tener en cuenta sobre Big Data:

  • Hadoop: Es un framework para computación distribuida que permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop no es un tipo de base de datos, aunque sobre él se ejecutan ciertos tipos de bases de datos NoSQL (tales como HBase), que permiten que los datos se distribuyan sobre miles de servidores. Sobre la base del Hadoop Distributed File System (HDFS), un sistema de archivos distribuido, Hadoop permite el acceso de alto rendimiento a los datos a la vez que ofrece un cierto nivel de disponibilidad. Al igual que otras tecnologías relacionadas con Hadoop, HDFS se ha convertido en una herramienta clave para la gestión de grandes volúmenes de datos y el apoyo a las grandes aplicaciones de análisis de datos.
  • NoSQL: Es una BD del tipo Key-Value en memoria, que ofrece alto rendimiento y procesamiento ágil de la información a escala masiva. En otras palabras, se trata de una infraestructura de base de datos que ha sido muy bien adaptada a las exigencias de Big Data.
  • HBase: Es una BBDD que corre sobre Hadoop. Almacena datos estructurados y semiestructurados de forma natural, y está diseñado para correr en un clúster de ordenadores en lugar de una sola computadora. Características principales:
    • Almacenamiento NoSQL.
    • Provee una API Clave –Valor.
    • Corre en múltiples nodos en un clúster.
    • Nuestra aplicación no sabe si estamos tratando con 1 nodo o con 100 nodos.
    • HBase está diseñado y optimizado para manejar terabytes o petabytes de datos. Es una parte del ecosistema Hadoop por lo que depende de algunas de sus características clave, como redundancia de datos y procesos en segundo plano.
  • MapReduce: Es un modelo de programación para el procesamiento y tratamiento de grandes cantidades de datos no estructurados, en paralelo a través de un grupo distribuido de procesadores u ordenadores independientes (clústeres de servidores). MapReduce basa su funcionalidad en complejos algoritmos matemáticos que permite distribuir una tarea a través de múltiples nodos de manera transparente al desarrollador. El proceso MapReduce se compone de tres fases:
    • 1º fase es la función “map” o “mapper” en la que cada tarea opera sobre un único bloque HDFS y se ejecuta sobre el nodo dónde el bloque está almacenado, generando conjuntos de pares clave/valor intermedios.
    • 2º fase es la denominada “shuffle& sort” y es la encargada de ordenar y consolidar los datos intermedios generados por los “mapper” una vez han finalizado.
    • 3º fase se denomina “reduce” y opera sobre los datos generados en la fase “shuffle& sort” produciendo la salida del resultado final.
    • JobTracker: (Nodo Maestro).
    • TaskTracker: (Nodos Esclavos)
    • El nodo maestro consiste en un servicio demonio llamado JobTracker, el cual se encarga de asignar las tareas a los nodos esclavos.
  • Hive: es una interface que facilita la estructura de datos y permite la escritura de programas MapReduce. Hive utiliza una especia de lenguaje SQL denominado HiveQL, y comparte algunas de sus características, como el uso de tipos de datos primitivos o conectores JDBC y ODBC. Hive es un gran interface para cualquiera que provenga del mundo de las bases de datos relacionales.
  • Pig: es un lenguaje de flujo de datos especialmente diseñado para simplificar la escritura de aplicaciones MapReduce. PIG es una simplificación de MapReduce, que combina dos elementos: el compilador PIG y el lenguaje de script PIG Latin. PIG Latin está basado en el paradigma de flujo de datos, este paradigma se asemeja a las señales eléctricas que fluyen a través de los circuitos eléctricos. El procesamiento en Pig Latin se realiza mediante operadores tales como “Join”, “Filter”, “GroupBy” y “Union”. PIG aporta las siguientes ventajas y características:
    • Es un lenguaje similar a SQL
    • Soporta tipos complejos de datos que pueden ser embebidos como campos de una tabla
    • Soporta la creación de funciones definidas por el usuario
    • Aporta una característica especial llamada “Illustrate” que permite al desarrollador escribir código rápidamente utilizando datos de muestra
  • Spark: Se trata de otra plataforma que proporciona soporte para la implementación de aplicaciones según el modelo MapReduce sobre un clúster Hadoop, pero Spark lleva a  MapReduce al siguiente nivel en el procesamiento de datos, con capacidades como el almacenamiento y procesamiento de datos en memoria y en tiempo real, ofreciendo tasas de rendimiento varias veces más rápidas que otras tecnologías big data.
  • Oozie: Es una aplicación Web basada en Java que permite controlar y programar flujos de tareas dentro del sistema Hadoop, así como la toma de decisiones en tiempo de ejecución.

Pig y Spark support

Hasta ahora ODI12c nos permitió utilizar Hive para cualquier transformación basada en Hadoop. Con esta nueva versión, podemos utilizar también Pig  y Spark, dependiendo del caso de uso, para dar un mejor rendimiento.

Estas dos tecnologías ya están disponibles en la topología, junto con el servidor de datos Hadoop para poder definir dónde extraer los datos, y podemos importar también algunos módulos con los KM para Pig y Spark. Por lo que para trabajar con Pig y Spark con ODI, todo lo que se necesita es crear un flujo de datos lógico en el mapping y elegir su tecnología.

odi1

Pig es un lenguaje de flujo de datos, esto hace que encaje perfectamente con el nuevo modelo de programación orientado a “flujo” recientemente añadido en ODI 12c. La idea es escribir un flujo de datos en Pig latín, donde la carga de trabajo se ejecutará en MapReduce.

Leer más…