Si hay un recurso valioso en nuestros tiempos es la información y los datos que la generan. Big Data es la nueva ciencia que permite el estudio de comportamientos estadísticos en base al análisis de datos por medio de la minería de datos de manera masiva con métricas definidas que nos permiten encontrar información valiosa en ocasiones de temas que desconocemos o que ignorábamos. La inteligencia artificial es capaz de lograr grandes avances gracias a esta ciencia. La evolución actual de las tecnologías para la comunicación y el intercambio social por asistentes virtuales como Siri y Google Assistant, así como dentro de los procesamientos especializados como es el casos de NVIDIA con su tecnología DLSS(Deep Learning Super Sampling) son ejemplos prácticos como Google DeepMind.
Empresas como Google, Microsoft y Amazon están a la vanguardia del procesamiento de datos a esta escala para la actualización de sus servicios así como para la revisión de sus políticas de venta. Son los datos quienes demuestran los resultados y trazan nuevas maneras de obtener mejores ganancia todo por las técnicas de extracción y procesamiento.
Para lograr el procesamiento rápido de la cantidad de datos que se requieren en los análisis, el hardware usado mayormente es de alta eficiencia. Las supercomputadoras son las únicas que cuentan con los Teraflops suficientes para el procesamiento de volúmenes de datos de este tamaño. Incluyendo las computadoras cuánticas actuales que permiten velocidades increíbles aun cuando no alcanzan su máximo potencial por el momento.
El Big Data dentro de nuestra vidas
Actualmente empresas como Facebook enfrentan demandas por el uso indebido de los datos de sus usuarios para influir en la opinión de las masas, no solo con fines comerciales. Google con su motor de búsqueda y optimización de temas personalizados por usuario, permite la construcción de perfiles psicológicos que nos identificaran a veces de manera muy precisa. La realidad es que la Internet facilita de manera significativa el uso de las datos para beneficios corporativos y en ocasiones gubernamentales.
Existen ejemplos del uso de Big Data que afectan significativamente nuestra vida cotidiana, tales como:
Predicción de virus: mediante el estudio de datos sociopolíticos, datos meteorológicos y climáticos, y datos hospitalarios/clínicos, los científicos predicen brotes de dengue con 4 semanas de anticipación.
Apoyo a la lucha contra el terrorismo: mediante el estudio de las redes sociales, los registros financieros, las reservas de vuelos y los datos de seguridad, las fuerzas del orden pueden predecir y localizar a los sospechosos de terrorismo antes de que logren su cometido.
Ajustar el marketing de marca basado en las reseñas de las redes sociales: las personas comparten sus pensamientos en línea de forma contundente y rápida en un pub, restaurante o club de fitness. Es posible estudiar estos millones de publicaciones en las redes sociales(como Twitter, Ning, Snapchat, Tagged) y proporcionar comentarios a la empresa sobre lo que la gente piensa de sus servicios.
Empresas que usan de manera desenfrenada Big Data
Como mencionaba anteriormente, la información que nuestros usuarios le pueden brindar a una empresa puede hacer la diferencia entre que creamos que necesitamos un producto determinado o no, por la misma manipulación de la que podemos ser fácilmente víctimas.
- Macy’s grandes almacenes: utiliza Big Data para ajustar sus precios sobre la marcha para más de 70 millones de productos. Incluso envían correos electrónicos personalizados a sus clientes en función de lo que Macy’s logra obtener en los análisis de intereses.
- Morton’s Steakhouse: utiliza los datos de Twitter para realizar acrobacias de marketing.
- Visa utiliza Big Data para identificar y atrapar a los defraudadores: las transacciones individuales aquí y allá pueden ocultar fácilmente a un usuario de tarjeta de crédito deshonesto, pero al observar millones de transacciones cuidadosamente, se pueden detectar patrones de fraude.
- Facebook utiliza Big Data para personalizar la publicidad: al estudiar cuidadosamente tus gustos y hábitos de navegación, el gigante de las redes sociales tiene una visión espeluznante de tus gustos. Esos anuncios de barra lateral que ves en tu perfil de Facebook son elegidos por algoritmos muy deliberados y complejos que están integrados en la plataforma para el análisis de tus hábitos.
La importancia del Big Data
En el mundo actual sería realmente imposible obtener información valiosa con el simple análisis de datos disgregados o sin relación a través de los algoritmos de Big Data. La creación constante cada día de mas y mas datos obliga el uso de esta ciencia para separar la basura de lo valioso.
Un análisis más minucioso nos permite ver lo siguiente:
Los datos son masivos
No caben en un solo disco duro, mucho menos una memoria USB. El volumen de datos supera con creces lo que la mente humana puede percibir (piense en mil millones de megabytes, y luego multiplique eso por más miles de millones).
Los datos son desordenados y no estructurados
Entre el 50% y el 80% del trabajo de Big Data está convirtiendo y limpiando la información para que se pueda buscar y ordenar. Sólo unos pocos miles de expertos en nuestro planeta saben completamente cómo hacer esta limpieza de datos. Estos expertos también necesitan herramientas muy especializadas, como HPE y Hadoop, para hacer su arte. Tal vez en 10 años, los expertos en Big Data se convertirán en una moneda de diez centavos por docena, pero por ahora, son una especie muy rara de analista y su trabajo sigue siendo muy oscuro y tedioso.
Los datos se han convertido en una mercancía que se puede vender y comprar
Existen mercados de datos donde las empresas y los individuos pueden comprar terabytes de redes sociales y otros datos. La mayoría de los datos están basados en la nube, ya que son demasiado grandes para caber en cualquier disco duro. La compra de datos suele implicar una cuota de suscripción en la que se conecta a una granja de servidores en la nube.
Las posibilidades del Big Data son infinita
Tal vez los médicos algún día puedan predecir ataques cardíacos y accidentes cerebrovasculares para individuos semanas antes de que ocurran. Los accidentes de avión y automóviles podrían verse reducidos por análisis predictivos de sus datos mecánicos y los patrones de tráfico y clima. Las citas en línea podrían mejorarse al tener predicciones exactas de quiénes son personalidades compatibles para usted. Los músicos pueden obtener información sobre qué composición musical es la más agradable para los gustos cambiantes del público objetivo. Los nutricionistas podrían ser capaces de predecir qué combinación de alimentos comprados en la tienda agravará o ayudará a las condiciones médicas de una persona. Esta ciencia puede crecer tanto como nuestra imaginación de como usarla.
¿ Cuales son los fundamentos de Big Data?
Volumen
La principal característica de Big Data es el volumen de información. Resulta tan masiva esta cantidad que nos quedamos cortos solo con medidas como Terabytes y entramos dentro del rango de los Petabytes, la mayoría de estos en la nube y en silos de datos.
Velocidad
La velocidad es el otro factor esencial para un correcto procesamiento de los datos ya que un hardware poco eficiente no sería capaz de equilibrarse con el ritmo de generación de los mismos datos y su procesamiento. La información resultante estaría desfasada y muchas veces sería inservible.
Variedad
Para la obtención de grandes volúmenes de información es esencial la variedad de los datos. Al centrarse en solo un tipo determinado de los mismos no se podrían obtener conclusiones estadísticas realmente desarrolladas y precisas.
Valor
El significado que se extrae de los datos utilizando herramientas especiales debe aportar valor real al servir a un objetivo específico, ya sea mejorando la experiencia del cliente o aumentando las ventas. Por ejemplo, los datos que se pueden usar para analizar el comportamiento del consumidor son valiosos para su empresa, ya que puede utilizar los resultados de la investigación para realizar ofertas individualizadas.
Veracidad
La veracidad permite obtener información verídica y confiable sin la que no se podrían tomar decisiones acertadas. Para ello se debe mantener una depuración de estos datos por un nivel mínimo de corrupción o deterioro.
Variabilidad
La variabilidad describe la rapidez y la medida en que están cambiando los datos bajo investigación. Este parámetro es importante porque incluso pequeñas desviaciones en los datos pueden afectar a los resultados. Si la variabilidad es alta, tendrá que comprobar constantemente si sus conclusiones siguen siendo válidas.
Tipos de Big Data
Los analistas de datos trabajan en varios tipos de Big Data según la organización de los datos tales como:
- Estructurados. Si sus datos están estructurados, significa que ya están organizados y son cómodos para trabajar. Un ejemplo son los datos en bases de datos Excel o SQL que están etiquetados en un formato estandarizado y se pueden ordenar, actualizar y extraer fácilmente.
- No estructurados. Los datos no estructurados no tienen ningún orden predefinido. Los resultados de búsqueda de Google son un ejemplo de cómo pueden ser los datos no estructurados: artículos, libros electrónicos, vídeos e imágenes.
- Semiestructurados. Los datos semiestructurados se han pre procesado, pero no se asemejan a una base de datos SQL ‘normal’. Puede contener algunas etiquetas, como formatos de datos. Los archivos JSON o XML son ejemplos de datos semiestructurados. Algunas herramientas para el análisis de datos pueden trabajar con ellos.