Big Data talks

I was attending a talk about Big Data past week. The organizer was Ascentic and the speakers were IT workers from Cantabria with high responsibilities in their companies. I think that it is interesting know about different use cases on different sectors.

[Leelo en español en CantabriaTIC]

Celestino Güemes works at Atos Worldgrid and he is a member of its wise committee. He was talking about “new” types of analytic and the issues. He explained us that analytics of historic data is something easy nowadays. However, systems are evolving with predictive analytics and prescriptive analytics, providing to an operator possible actions to take, and what is the recommended one.

He also remarked the use of deep learning and multi-sided market analytic platforms to develop new products and services.

He exposed some interesting and real cases as example of the different types of use of Big Data:

Operational excellence: An oil company uses drilling heads with 120 sensors. They can analyze the data in real time and compare them with the historic  data to know when a head will break avoiding problems.

User experience: They work for a telecommunications provider in the relation between mobile network configuration and use of the clients. For example, they can detect where a user lives or works based on the network elements the user uses. They also can improve the quality of service for a specific VIP user when she is using Youtube during a trip or notify a client with information or an offer when he walk into a street (this is very similar to what I did with my team at GPMESS, my last company).

Bussiness re-invention: A seller of electricity is putting their data with other data sources to look for new possible services and business models. They are exploring things like detect the different machines in a house and offer discounts in new machines when they detect a problem in one of them based on the use of electricity.

Confidence and compliance: he is working in a solution to detect non-technical economic losses (frauds and errors) for electricity companies. These losses represent 1% of the business (3.7M€ per year).

Miguel Sierra is a manager at CIC. He leads a product called IDbox that is a software for Operational Intelligence. It integrates all available information sources, processes that captured signals and offers the tools for analysis to assist in operational decision making. This product is used by companies from different sectors: nuclear plants, electricity companies, private parking companies, water companies, and also high performance sports training.

He was talking about their history and how they became a company with high expertise on Big Data.

He said that the size is important but the frequency is more important. They process 1.5M signals from Iberdrola each second and 80K signals from a nuclear plant each 20 milliseconds (it is almost the same that 4M signals each second).

They help business that are not scalable at first sight providing them ways to become scalable and more profitable companies. He used the example of a clinic that work with professional athletes. They needed a doctor attending a single athlete inside their installations. Now they can provide a service to other clinics and gyms monitoring trainings from a control center operated by a group of doctors. A single doctor can work now with more than 20 athletes that are training at anyplace.

Raul Uría, CEO at Zzircon Business Intelligence. He did a basic presentation thinking in non-technical attendees. He explained what is and for what is the data mining. He showed a complete example with a single product (a slide for kids) talking how data mining helps to know to what users you have to offer this product, and how you should impact them and what message you should use.

I am sure that it was a great explanation for people that are not involved on IT everyday.

Microsoft Flow

La semana pasada tuvimos la noticia de que Microsoft lanzaba un competidor de IFTTT (If This Then That) para que los usuarios puedan automatizar las tareas que hacen en el día a día de un modo sencillo.

Seguir leyendo en CantabriaTIC.

Patrones cloud: protocolos gossip

Con los protocolos gossip vamos a dar por interrumpida esta serie, en la que hemos hablado de cachés, de particionado y de tablas hash siempre en torno a un ejemplo de Infinitext, un caso realista aunque no real.

Podéis encontrar definiciones mucho más detalladas y con categorizaciones y todo, pero ya sabéis que me gustan las cosas simples y un protocolo gossip simplemente es un algoritmo de comunicación que montas para «que todo el mundo lo sepa todo».

Seguir leyendo en CantabriaTIC.

Patrones cloud: Tablas Hash

En esta serie ya hemos hablado de las cachés, del particionado, y hoy vamos a hablar de las tablas hash.

Las tablas hash no son más que estructuras de almacenamiento clave-valor. La clave se suele establecer usando el hash de un objeto y por eso se llaman tablas hash. El hash de un objeto es un código de texto que identifica al objeto más o menos inequivocamente, y suele existir un método por defecto en la clase base de muchos lenguajes de programación orientados a objetos: por ejemplo con el método hashCode de Object en Java o con el GetHashCode de Object en C#; aunque habitualmente toca reescribirlo. Pero no quiero liaros, que en realidad para dónde vamos nos importa poco si usamos el hash del request, el nombre del usuario o cualquier otra cosa como clave.

Continuar leyendo en CantabriaTIC.

Big Data, venta de datos y el lado oscuro por @IgnacioBustillo

El martes pasado, tuve la suerte de poder asistir a la charla que Ignacio Bustillo (un gran amiguete) impartió sobre Big Data™ dentro del Ciclo de charlas en el ámbito de la Informática que viene organizando la Universidad de Cantabria los últimos años.

A modo de breve resumen os diré que soltó tal cantidad de información que a cualquiera no iniciado le habrá explotado el cerebro. Dividió la charla en dos partes, la primera en la que hablaba del mundo Big Data™, tecnología, herramientas, etc.; y la segunda que presentaba un caso real de la última empresa por la que pasó (lo que yo llamo su «época Black Hat») en la que se dedicaban a captar y vender datos, explicando como es todo el proceso de obtención, manipulación, venta y uso abriendo la puerta al debate sobre el estado actual y el futuro del negocio del Big Data.

Seguir leyendo en CantabriaTIC.

Patrones cloud: Particionado

Continuamos con esa serie que ya lleva una y dos entregas de soluciones de común aplicación en cualquier entorno pero especialmente en los entornos de nube. Hoy veremos el particionado, que aunque es una solución generalmente poco eficiente, nos puede salvar el culo más de una vez.

Database Partitioning Diagram

Continuar leyendo en CantabriaTIC.

Patrones Cloud: Caché

Si recordáis mi último post (en CantabriaTIC), planteamos un problema: teníamos un servicio en una máquina que tardaba mucho, entre otras cosas por el acceso a la BBDD. Hoy veremos como solucionar eso usando una caché.

Aunque no sepáis nada de la Nube™ esta palabra os sonará, y es que la Nube™ no ha traído nada nuevo (ni siquiera ella misma, pero eso es otra discusión que tendrá que ser mantenida en otro momento). Las cachés se usan continuamente en informática para resolver problemas de acceso a datos como al que nos enfrentamos. El aparato que estés usando para leer esto tendrá una caché física, el sistema operativo que lo corra tendrá una caché virtual y el navegador con el que estés accediendo tendrá una caché de aplicación.

Cache Diagram

Seguir leyendo en CantabriaTIC.