Archivo

Posts Tagged ‘Endeca’

Big Data Discovery, su papel en proyectos con volúmenes grandes de datos

septiembre 28, 2015 Deja un comentario

Oracle Big Data Discoverycon sus respectivas vinculaciones a Hadoop, Oracle Big Data SQL 1.1 y Oracle NoSQL Database 3.2.5, es una de las herramientas que ha introducido Oracle en el mercado, para el fortalecimiento y reestructuración de los grandes almacenes de datos en las empresas. Gracias a ella, se puede ver y entender rápidamente el potencial de los datos en bruto desde Hadoop  y convertir los datos en conocimiento en cuestión de minutos.

Sin una gran dificultad de aprendizaje, y mediante un diseño gráfico muy intuitivo, se puede compartir y obtener datos realmente interesantes.

1

Funciona de forma nativa con Hadoop, transformando datos rápidamente y procesando el conocimiento del negocio en cinco fases. Cualquiera puede encontrar, explorar, transformar y analizar datos para obtener nuevas perspectivas, las cuales pueden ser compartidas en proyectos de gran interés para el negocio.

 

Coherencia de la analítica Big Data

Oracle Big Data Discovery ofrece tremenda velocidad a escala masiva, permitiendo dedicar un 20% al desarrollo y un 80% al análisis.

Big Data Discovery está compuesto por los siguientes tres componentes básicos y es posible su interacción con otras herramientas:

2

  • Discovery Studio, es una interfaz de usuario intuitiva y visual para encontrar y explorar grandes volúmenes de datos, de tal forma que cualquier persona pueda rápidamente transformar, descubrir y compartir el valor del conocimiento del negocio a gran escala.
  • DGraph, es la tecnología líder en la industria Oracle Big Data; (Endeca Server); que simplifica la complejidad de organización y búsqueda de datos para su análisis.
  • Capa de Procesamiento de Datos, utiliza el componente Spark de Hadoop para realizar perfiles de datos a alta velocidad, transformación y enriquecimiento de la información.
  • Diseñado para trabajar junto a:
    • ODI 12c y GoldenGate: una vez que haya definido sus flujos de datos principales de transformación.
    • Oracle Big Data SQL: acceso BI de la aplicación a la totalidad del “Almacén de datos” (DWH + Hadoop).

La mejor manera de pensar en Big Data Discovery es “Endeca Hadoop”

La herramienta web Discovery Studio es una versión de Endeca Server para:

  1. Analizar y visualizar conjuntos de muestras de datos desde el clúster Hadoop, el cual ejecuta sus elementos sobre DGraph (Servidor Endeca) en uno o más nodos.
  2. Leer datos desde Hadoop mediante Hive y luego escribir de nuevo las transformaciones planificadas (utilizando Apache Spark para recuperar datos de Hadoop).
  3. Transformar esos datos de forma que sea más adecuado para su análisis con Big Data Discovery.

3

Leer más…

Oracle Endeca – Text Enrichment y Sentiment Analysis

junio 6, 2014 1 comentario

img tags

Hace un par de semanas avanttic organizó en Barcelona un workshop sobre Oracle Endeca Information Discovery (EID).

Uno de los temas que más despertó la curiosidad de los asistentes, y que de hecho es uno de los puntos fuertes de Endeca, es el Sentiment Analysis, o sea, la capacidad de tratar no solo contenido no estructurado sino de establecer si este contenido tiene una connotación positiva o negativa.

Hoy en día, casi cada entidad, tanto comercial como pública, tiene su presencia en las redes sociales (ej. Facebook, Twitter, etc.) y tener una buena reputación es de vital y estratégica importancia.

Debido a la gran cantidad de información no estructurada que se produce a diario, es necesario disponer de algoritmos que sean capaces de analizar este contenido y extraer la estructura y el significado que “se esconde” en este gran volumen de datos.

Sentiment Analysis es parte de lo que se conoce como Text Analytics, un conjunto de técnicas lingüísticas (sintácticas y semánticas),  analíticas y predictivas para extraer contenido a partir de documentos no estructurados.

Como seres humanos, la tarea de decodificar el significado de una frase es automática y lo hacemos sin darnos cuenta, pero el lenguaje tiene muchas trampas para las maquinas.

Básicamente porque el lenguaje es ambiguo. La misma palabra puede referirse a conceptos distintos según el contexto. Sin mencionar los infinitos matices relacionados con la sensación que se quiere transmitir al receptor (sarcasmo, ironía, critica, ira, agradecimiento, etc.).

Imagen1Hay muchísima literatura sobre las técnicas de NLP (Natural Language Processing). La mayoría se basan en un proceso de “tokenización”. Para poder analizar un texto hay que dividir cada frase en “tokens”, o sea, en sus partes mínimas y aplicar un análisis gramatical y sintáctico para detectar cada uno de los elementos de la frase (sujeto, verbo, preposición, etc.). Este proceso es conocido también como POS (Part of Speech) tagging y consiste en asignar un tag a cada una de las parte del discurso. Si pensamos en la palabra “como”, por ejemplo, resulta evidente que no significa lo mismo en “Me como una manzana” que en “Me gustan los deportes, como el futbol y el tenis”. Además hay que detectar donde empieza y termina una frase, y el simple punto puede no ser un separador suficiente (ej. “<Alea iacta est.> dijo Cesar”). Combinando varias técnicas es posible determinar la “estructura” de un documento (o de un conjunto de documentos) y utilizarla para analizar su contenido.

Leer más…

Crónica Workshop Oracle Endeca Information Discovery (Barcelona, 22 mayo)

mayo 26, 2014 1 comentario

El pasado día 22 de mayo avanttic y Oracle realizamos un Workshop en las oficinas de avanttic de Barcelona, en el que se pudo probar y conocer Oracle Endeca Information Discovery.

avanttic Oracle Workshop OEID BCN 20140522

 

Invitamos a un reducido grupo de clientes interesados en probar la herramienta más actual de la familia de Business Analytics de Oracle. Endeca combina información de cualquier fuente (datos estructurados, semiestructurados y desestructurados) y permite descubrir rápidamente los datos más relevantes para el negocio, con una interfaz de usuario sencilla e intuitiva. Combina el Business Intelligence tradicional con avanzadas capacidades de Data Discovery.

La sesión se enfocó primero a la presentación  del producto, de la mano de un comercial de Oracle, con un overview genérico en el que se mostró cómo incluso puede utilizarse como un laboratorio de Big Data, pues cubre todas sus fases: Stream&Acquire + Organize + Discover + Analyze.

En la segunda parte del workshop los asistente pudieron familiarizarse con Endeca, siguiendo las indicaciones de la instructora de avanttic.  Realizaron varios ejercicios prácticos, buscando el porqué de los cambios en los patrones de comportamiento de los clientes de una empresa de consumibles electrónicos con varias tiendas y venta on-line. También se les guió para poder elaborar su propio cuadro de mando y, finalmente, se  les enseñó a crear una nueva aplicación a partir de los datos almacenados en formato Excel.

El éxito de esta iniciativa nos anima a realizar nuevas sesiones próximamente, tanto en Barcelona como en Madrid. Contacta con nosotros si estás interesado en asistir a alguna de ellas, a través de este e-mail Mónica Esteve o llamando al teléfono 618 907 428.

Workshop Oracle Endeca – BI & Data Discovery (Barcelona, 22 mayo)

abril 22, 2014 Deja un comentario

avanttic-Oracle Workshop OEID BCN-20140522

Hoy en día uno de nuestros mayores retos consiste en sacar partido a toda la información disponible para poder utilizarla en la toma de decisiones de negocio. Sólo el 20% de la información son datos estructurados, que pueden ser manejados por las herramientas tradicionales de Business Intelligence; el otro 80% son datos no estructurados: texto en aplicaciones empresariales, emails, file systems, social media (twitter, linkedin, etc.), Big Data, encuestas, websites, …

avanttic y Oracle le invitan a este workshop (*), dirigido a consultores técnicos del área de Business Intelligence, en el que podrá probar y conocer Oracle Endeca Information Discovery.

Este producto, que forma parte de la familia Business Analytics de Oracle, combina información de cualquier fuente y le permite descubrir rápidamente lo que es importante, con una interfaz de usuario sencilla e intuitiva. Combina el Business Intelligence tradicional con avanzadas capacidades de Data Discovery.

Oracle Endeca puede incluso considerarse un laboratorio para Big Data, pues cubre todas sus fases: Stream&Acquire + Organize + Discover + Analyze.

Enfocaremos la sesión desde un punto de vista funcional, pero lo más interesante es que podrá, desde su propio portátil, tener una toma de contacto práctica con la plataforma, observando los procesos para cargar datos en el servidor de Endeca, explorando la información como un usuario final y generando sus propios cuadros de mando.

(*) Workshop de aforo reducido. Imprescindible asistir con Ordenador Portátil, preferible con navegador Firefox para mayor compatibilidad.

Agenda:

08.45 Registro e inscripción
09.00 Overview Endeca Information Discovery
09.30 Test Drive (Familiarizarse con el entorno. Caso práctico de negocio. Construir un Dashboard)
14.00 Cierre

Calendario:

Barcelona 
jueves, 22 de mayo 2014
Oficinas avanttic
Aragó 182, 4ª planta, 08011 Barcelona

Si desea obtener más información o desea inscribirse a este evento, por favor indíquenoslo a través de este e-mail Mónica Esteve o llamando al teléfono 618 907 428

Componentes de Oracle Endeca Information Discovery (OEID)

Para ir conociendo un poco más sobre Endeca, vamos a explicar a grandes rasgos cuáles son sus componentes y qué aporta cada uno de ellos.
En primer lugar, habrá que distinguir entre la parte cliente (Endeca Information Discovery Studio) y la parte servidor (Endeca Server), puesto que podemos utilizarlos conjuntamente, o utilizar el Server como motor de datos para otras aplicaciones.
En el gráfico a continuación, representamos cada uno de los componentes, ubicándolos en la capa funcional correspondiente.

Avanttic_Endeca_Componentes

Oracle Endeca Information Discovery

Se compone a su vez de dos productos: Studio y Integrator, que actúan de interfaces de Endeca Server tal y como veremos a continuación:
  • Oracle Endeca Information Discovery Studio. Es la herramienta para la creación y explotación de aplicaciones para descubrir información. Es 100% web y con ella, los usuarios de negocio podrán ir interrogando al motor, que les irá respondiendo y descubriéndo nuevos datos o relaciones que le llevarán a nuevas preguntas, para así ir tejiendo sobre la marcha, sin reglas preestablecidas, una red de nuevos conocimientos a medida que se va descubriendo la información. Las aplicaciones están compuestas por páginas que se organizan en pestañas que contienen los diferentes componentes gráficos que ofrecen las siguientes funcionalidades: navegar o buscar datos, mostrar información detallada, mostrar gráficas y otras representaciones de datos, manipular y analizar datos, resaltar datos específicos. Como complemento para agilizar el desarrollo y dar mayor independencia a los usuarios, dispone del Provisioning Service, una herramienta que permite a los analistas de negocio subir sus propias hojas de cálculo y empezar a crear sus aplicaciones a partir de ellas. Cabe destacar también que ofrece integración SOA.
  • Oracle Endeca Information Discovery Integrator. Mediante el Integrator Acquisition System (IAS) proporciona las herramientas necesarias para la adquisición (desde sistema de ficheros, gestores de contenidos, servidores Web y orígenes de datos propietarios) y enriquecimiento de datos (normalización, cleansing, extracción de tags, análisis sentimientos, descubrir ubicaciones geográficas), más próximas a un perfil de usuario de TI, con necesidades o exigencias más complejas: porque requieren una cierta orquestación o de un proceso más elaborado para su extracción.

Oracle Endeca Server (motor MDEX)

Es el motor de BD de búsqueda-analítico que se encarga de organizar datos complejos y variados provenientes de orígenes diversos en un modelo extremadamente flexible que reduce la necesidad de modelar los datos. Es muy escalable (puede tener múltiples nodos) y permite explorar y navegar por los datos de manera espontánea y sin restricciones, respondiendo rápidamente a las preguntas que van surgiendo tras cada nueva conclusión.
Cada aplicación cuenta con un Data Domain, el conjunto de datos y metadatos gestionado por Endeca Server. Por cada data domain existirán n procesos DGraph, que almacenan los índices creados tras la “ingesta” de información, y que serán los responsables de procesar las peticiones de los usuarios a medida que avanzan en el análisis y el descubrimiento de información.

Siendo SOA nativo, articula su funcionamiento a través de diversos web services, algunos de uso interno, y otros, como los que destacamos en el gráfico, lo comunican con el exterior: el WS Data Ingest es el que recibe los datos, bien provengan de un usuario de negocio vía Provisioning Service o de un origen más complejo que haya sido procesado mediante Integrator. Como alternativa a este WS, existe también un proceso llamado Bulk Load Interface, diseñado para cargas masivas de datos desde disco. La comunicación con la capa de aplicación, se realiza a través del Conversation WS.

Categorías:Business Analytics Etiquetas: , , ,

Crónica desayunos ejecutivos sobre las soluciones de Business Intelligence de Oracle

febrero 22, 2013 Deja un comentario

Los pasados días 12 y 19 de febrero avanttic y Oracle hemos realizado sendos desayunos ejecutivos, en Madrid y Barcelona respectivamente, para presentar las últimas novedades en la plataforma de inteligencia de negocio de Oracle. Revisa aquí la agenda.

Desayunos avanttic Oracle BI

Durante las sesiones, comerciales y preventas de avanttic y Oracle presentaron las siguientes soluciones:

  • Oracle Business Analytics: Repaso pormenorizado de todo el portfolio de soluciones de BI de Oracle, estructurado en:
    • Almacenamiento de datos: Oracle Database, Essbase y Exadata
    • Consolidación de datos: Oracle WareHouse Builder, Oracle Data Integrator, GoldenGate y Oracle Data Quality
    • Análisis de la información: Discoverer, Oracle Business Intelligence, Endeca y Exalytics
  • Oracle Endeca Information Discovery permite la exploración intuitiva y posterior análisis de información, que puede provenir de fuentes de datos estructurados, semi estructurados y no estructurados: datos relacionales tradicionales, xml,  documentos (word, pdf, …), encuestas, datos y contenidos de internet (foros, blogs, twitter, facebook, …), etc. Trabaja básicamente en memoria, consultando índices sobre las fuentes de información. Incluye un potente buscador, tipo Google, que sugiere palabras similares y sinónimos. Realiza un análisis avanzado de los textos para extraer el sentimiento global en relación con cada concepto extraído (sentiment analysis), asignado una puntuación y un signo positivo o negativo; se visualiza en forma de 2 nubes de etiquetas, una verde y otra roja, mostrando  los conceptos con tamaño de letra más grande cuando presentan más ocurrencias.
  • Oracle Exalytics In-Memory Machine es un sistema de ingeniería conjunta diseñado para ejecutar Business Intelligence con un altísimo rendimiento. Viene ensamblado y probado de fábrica e integra hardware (servidor x86 con 40 cores, 1 TB de RAM y 2 puertos InfiniBand a 40 Gb/sec) y software ajustado para trabajar en memoria: Oracle Business Intelligence Foundation Suite y Oracle TimesTen In-Memory Database for Exalytics. También existe una versión específica de Oracle Endeca Information Discovery adaptada para Exalytics. Ofrece tiempos de respuesta casi instantáneos, evitando tuning y creación de agregados, y permitiendo dar servicio a miles de usuarios simultáneos.

Contacta con nosotros si deseas más información sobre los temas tratados en estas sesiones.

Oracle entre los líderes visionarios del segmento BI/analítico segun Gartner

De acuerdo al último Cuadrante Mágico (Magic Quadrant) de Gartner (1)  para la plataforma BI y Analítica publicado el pasado 5 de febrero, una de las constantes de este  segmento en 2012 fue la creciente popularización del “descubrimiento de datos” como nueva parte fundamental de la arquitectura BI y analítica. Así mismo hubo una mayor actividad en las áreas de análisis en tiempo real, de contenidos, y predictiva.

En estos momentos la mayor actividad en el segmento BI/Analítico viene de organizaciones en evolución desde el estado de un análisis descriptivo de su información a uno más maduro donde el diagnóstico es clave. Oracle, como uno de los líderes en este segmento, ha respondido a esta popularización del “descubrimiento de datos” con la adquisición de Endeca, que en combinación con la facilidad de uso de las herramientas de su suite de BI , y con sus soluciones hardware para almacenamiento y procesamiento extremos (Exalytics, Exalogic, etc.), está contribuyendo a la aceleración en la descentralización de sistemas, así como a la potenciación de soluciones BI y análisis. En definitiva, está posibilitando a un creciente número de organizaciones la realización de diagnósticos analíticos.

El cuadrante de Gartner sitúa a Oracle en el grupo de líderes visionarios:

Magic Quadrant for Business Intelligence and Analytics Platforms

Las fortalezas de Oracle en este segmento según Gartner son:

  • Oracle Business Intelligence Foundation Suite, con su componente principal Oracle Business Intelligence Enterprise Edition (OBIEE), es una plataforma  BI y analítica apropiada  para despliegues a gran escala,  gestionada por IT de manera centralizada, en la que  las múltiples funcionalidades de BI, analíticas y CPM, así como su optimización, se basan en la pila tecnológica de Oracle. Las instalaciones de  OBIEE  se encuentran entre las más grandes en términos de  número de usuarios, volúmenes de datos  y tamaño de compañías. Un número superior a la media de los encuestados veían a OBIEE como su standard de BI.
  •  Los clientes que eligieron Oracle lo hicieron por la integración y optimizaciones de la Pila Tecnológica de Oracle, que es una diferencia clave en la propuesta de valor de la solución BI y analítica de Oracle, especialmente entre la base instalada de Oracle E-Business Suite (EBS), PeopleSoft, JD Edwards, Siebel, Fusion (en el propio CPD o en la nube) y otras aplicaciones Enterprise. Para estas instalaciones se ofrecen más de 80 aplicaciones analíticas, tanto para ETL, como KPI’s, reporting, etc.  Adicionalmente a la optimización que proporciona la Pila Software de Oracle, el más reciente Engineered System de Oracle, Exalytics In-Memory Machine, añade una combinación de hardware y software optimizada (que incluye OBIEE, Oracle Essbase, Oracle Endeca Information Discovery, y software in-memory  basado en TimesTen), diseñada para cargas analíticas grandes y complejas, incluyendo planificaciones dinámicas y análisis de escenarios what-if (qué-pasaría-si).
  • Oracle tiene una larga trayectoria como líder de gestión y análisis de información estructurada (principalmente de ámbito transacciones empresariales), pero la adquisición en 2011 de Endeca (actualmente denominada Oracle Endeca Information Discovery) ha demostrado visión de producto, y compromiso con la creciente importancia y potencial valor para los clientes Oracle de incorporar, relacionar y analizar datos no estructurados, lo que se adecua a nuevas ideas o perspectivas de negocio.  Endeca ha venido a llenar el vacío de este tipo de soluciones en Oracle, estando en el road map estratégico su integración dentro de la pila formada por el gestor de manejo de datos, la capa de middleware y las aplicaciones empresariales mediante las recientes EBS extensions para Oracle Endeca. Adicionalmente Oracle ha introducido Oracle Big Data Appliance para soportar NoSQL y Hadoop. Más de un 22% de los clientes de  OBIEE han respondido que compran esta visión (entre los más numerosos de la encuesta) indicando tener planes de despliegue de análisis de contenidos dentro de los siguientes 12 meses.

Puede leer el artículo completo de Gartner en este enlace.

(1) Gartner Magic Quadrant (MQ) es la denominación registrada de una serie de informes de estudios de mercado publicados por  Gartner Inc., una firma de los EEUU dedicada a investigación de mercado y asesoramiento.