Ubuntu

Data Lake, Data Lab, Data Hub: ¿cuál es la diferencia?

Data Lake, Data Lab, Data Hub: ¿cuál es la diferencia?

En esta publicación, exploraremos los conceptos de lago de datos, centro de datos y laboratorio de datos. Hay muchas opiniones e interpretaciones de estos conceptos y son ampliamente comparables. De hecho, muchos podrían decir que son sinónimos y simplemente nos estamos partiendo los pelos. Pero miremos de nuevo con atención. Podemos discernir algunas tendencias sutiles en la forma en que las personas hacen las cosas y encontrar distinciones en estas expresiones.

Bienvenido a Data Lake

Los lagos son grandes charcos tranquilos de agua fría, ¿verdad? Bueno, posiblemente. Crecí en Escocia, donde los lagos se llaman lagos y abundan los rumores de monstruos que acechan en las profundidades de los lagos antiguos. Escocia también tiene lagos marinos de agua salada, llenos de medusas. Pero una cosa es segura: lagos, lagos, llámalos como quieras, son lugares populares para ir a pescar.

En la tecnología vernácula actual, un lago de datos es esencialmente una gran cantidad de datos interesantes, por lo general en el tamaño de cientos de terabytes a petabytes. El lago de datos se diferencia de otros sistemas de almacenamiento geniales como MAID (Massive Array of Idle Disks), bóvedas de almacenamiento y archivos de cinta, porque los datos permanecen online y totalmente accesibles en un medio de almacenamiento de bajo costo como Apache HDFS, Ceph, o Servicio de almacenamiento simple de AWS (s3). Esto lo convierte en una solución interesante y rentable para realizar investigaciones, análisis e informes ad-hoc sobre los datos agregados, lo que esencialmente permite «expediciones de pesca» de datos, además de ser la materia prima para aplicaciones que utilizan aprendizaje profundo u otros datos artificiales intensivos. enfoques de inteligencia. No es necesario restaurar los «macrodatos» desde una cinta ni extraerlos de una bóveda o una solución de almacenamiento profundo para ser consultados, que son tareas que generalmente tienen un costo significativo.

Los datos en el lago pueden tomar muchas formas, el formato más popular son los datos de máquina semiestructurados, por ejemplo, datos de telemetría (sistema, uso de aplicaciones y registros de actividad, seguimiento de usuarios, cosas así), datos de registro (weblogs, registros de fallos, redes registros de elementos, registros de aplicaciones, registros de firewall, datos de máquinas industriales, etc.) y feeds de datos (como datos de cotizaciones, datos meteorológicos, etc.). Otro formato popular son los datos del sistema de registro (SoR): extracciones de bases de datos operativas, captura de datos de cambios en el almacén de datos, etc. Y muchos lagos de datos capturan grandes cantidades de datos no estructurados (texto libre, como transcripciones de chat o audio, escaneos de documentos, fotografías binarias e imágenes como rayos X, audio binario, como grabaciones de centros de llamadas, y videos binarios, como grabaciones de cámaras de seguridad). .

También es importante saber que a los administradores de lagos de datos a menudo les gusta adoptar la estrategia de «esquema en lectura» para los conjuntos de datos que forman el lago. Básicamente, esto significa que los datos se almacenan en el lago sin tratamiento, con total fidelidad. Esto puede parecer ir en contra de todas las mejores prácticas de almacenamiento de datos, donde la normalización de datos para la eficiencia e integridad es uno de los principios principales. Sin embargo, el razonamiento es sólido: los volúmenes de datos involucrados hacen que garantizar la integridad a través del modelado relacional sea difícil de lograr y, al mismo tiempo, garantizar el acceso oportuno a los datos. Y cualquier ahorro inducido por la eficiencia del almacenamiento se compensa enormemente con el costo de mano de obra inicial de diseñar los datos. Finalmente, tratar los datos a menudo implica descartar o resumir datos, lo que puede ser indeseable ya que podría excluir aplicaciones y casos de uso futuros (por ejemplo, algunos casos de uso de minería de datos o IA), por lo que el valor del ejercicio de ingeniería y modelado de datos inicial es incierto. .

Si bien los datos de procesamiento residual, como los weblogs y los crashlogs, pueden considerarse de bajo valor a pequeña escala, en conjunto y durante períodos de tiempo prolongados, este tipo de datos puede ser una entrada extremadamente valiosa. Por ejemplo, los datos se pueden utilizar para impulsar la investigación, la excelencia empresarial, como materia prima para productos nuevos e innovadores (por ejemplo, IA) y para orientar decisiones empresariales informadas.

Cabe señalar que los lagos de datos se utilizan normalmente para almacenar los denominados datos “geniales”, es decir, datos a los que se accede con poca frecuencia y que rara vez se modifican; mientras que los datos “calientes”, es decir, los datos a los que se accede con frecuencia y se actualizan, generalmente se almacenan en otro lugar (por ejemplo, en una base de datos OLTP).

Soy valiente y, por lo tanto, poderoso: el laboratorio de datos

Dado que el costo de almacenamiento por GB es bastante bajo, la eficiencia del almacenamiento es una preocupación menor que la accesibilidad. Exponer datos textualmente en un lago de datos para que los científicos y analistas de datos realicen la ingeniería de características o el modelado que desean para obtener los datos en la forma que necesitan para el proyecto o producto dado impulsa la agilidad a costa de la duplicación del conjunto de datos.

Todo esto reduce los costos iniciales asociados con la experimentación e investigación de datos avanzados; y, por lo tanto, coloca la agilidad, la innovación y el rigor de las prácticas empresariales empíricas o basadas en datos al alcance de cualquier organización, grande o pequeña, que tenga el apetito de construir un lago de datos.

Cue el laboratorio de ciencia de datos. Los laboratorios de datos son un paradigma emergente de servicios compartidos: una especie de equipo o división de «servicios de conocimiento», centrados en ofrecer análisis avanzados, predicciones, juegos de guerra, gemelos digitales, aplicaciones de aprendizaje automático (ML) y herramientas de inteligencia artificial (IA). Por lo general, estos servicios se brindan como proyectos cortos, que ayudan a todas las partes de la empresa que pueden necesitar sus servicios, desde el marketing hasta la fabricación, el equipo ejecutivo y el equipo de personas.

Por tanto, el laboratorio de datos podría hacer uso de un lago de datos, pero es, según nuestra definición, un paradigma diferente.

El centro neurálgico: el Data Hub

Los datos agregados en grupos grandes pueden ser bastante útiles, como hemos aprendido. No sin su participación en el costo de administración de activos, por supuesto, pero sin duda es un recurso útil con muchas oportunidades. Y se puede acelerar el buen uso de estos lagos de datos reuniendo un equipo capacitado en un laboratorio de datos.

Hemos escrito sobre datos interesantes. ¿Pero qué, sin duda se estará preguntando, acerca de los datos calientes? ¿Qué sucede si queremos aprovechar las fuentes de datos que tenemos y usarlas para hacer predicciones o tomar decisiones comerciales informadas en función de cómo lo estamos haciendo? ahora mismo? En nuestro vocabulario, este es el ámbito de la centro de datos.

Un centro de datos es un punto de integración de alta capacidad y alto rendimiento, como un Apache Kafka sistema de mensajería, que se puede utilizar para monitorear, inspeccionar, enrutar y actuar sobre los datos en movimiento. La idea es que todas las fuentes de datos de eventos que tiene la organización estén conectadas al centro de datos, donde el análisis de datos o los modelos predictivos se ejecutan online sobre los datos.
Dado que el centro de datos es una solución online que actúa sobre las fuentes de datos, se debe tener cuidado para distinguir entre datos por lotes y fuentes de datos. Los centros de datos no son adecuados para procesar datos por lotes y, si bien es posible utilizar técnicas de captura de datos modificados para convertir los datos orientados al procesamiento por lotes de estilo de registro en una fuente de datos, a menos que se proporcione el contexto, este tipo de datos puede entregue un valor comercial mínimo en el centro de datos a cambio de mucho trabajo duro.

¿Los datos son o los datos son?

Así que ahí lo tenemos. Sutil, matizado y quizás levemente contencioso; nuestras definiciones de lo que es un lago de datos, un laboratorio de datos o un centro de datos están notablemente diferente.

En resumen:

  • Utilice un lago de datos cuando desee almacenar macrodatos a largo plazo, pero aún así quiera poder procesarlos para análisis, informes, investigación y entrenamiento de modelos de ML / AI.
  • Utilice un laboratorio de datos cuando desee un equipo experto de científicos, ingenieros y analistas de datos que lo ayuden a obtener valor rápidamente de sus datos.
  • Utilice un centro de datos cuando desee tener una vista operativa en tiempo real de su negocio y utilícelo para impulsar análisis, predicciones, informes y decisiones automatizados online utilizando datos de ruta activa.

Leave a Comment

You may also like