top of page
  • DataSign

¿Está listo para la explosión de datos no estructurados?

Se espera que los datos no estructurados se multipliquen por diez para 2023, y muchas organizaciones ya están luchando para administrar este elefante en el centro de datos, y mucho menos para obtener valor de él.


¿Cómo pueden prepararse (y mantenerse) para la explosión de datos no estructurados?


Los datos no estructurados se han disparado y no se están desacelerando.

El volumen total de datos creados, capturados, copiados y consumidos en todo el mundo para 2024 superará los 149 zettabytes cada año. Gran parte no estará estructurado, lo que sabemos que tiene un valor enorme, pero también desafíos y complejidades.

Todas las organizaciones pueden beneficiarse de los casos de uso de datos no estructurados, pero primero, necesitan una forma de controlarlos y abordar el elefante en el centro de datos: el hardware de disco giratorio en el que a menudo se almacena este gran depósito de datos.

Porque cuando se trata de datos no estructurados modernos, muchas de las arquitecturas de almacenamiento tradicionales, tecnológicas, mejores prácticas y principios de datos estructurados no se aplicarán.

Pero, hay una cosa que puede hacer para estar preparado para ello


¿Qué son los datos no estructurados?

A diferencia de los datos estructurados, como los archivos de Excel o las bases de datos SQL, los datos no estructurados son datos que no encajan perfectamente en las tablas formateadas. Por lo general, se presenta en forma de archivos y objetos. Esto incluye:

Datos de Internet de las cosas (IoT), como datos de sensores, información de cotizaciones y más

Datos del dispositivo y de la red, como telemetría y datos de ubicación

Texto y documentos que requieren contexto para procesar y extraer datos, como notas de un representante de servicio al cliente en un centro de llamadas

Datos visuales, como imágenes y videos.

Datos de audio

Datos enriquecidos, como datos meteorológicos y datos de análisis espacial

Datos generados por la actividad de las redes sociales, incluida la actividad del usuario, el análisis de sentimientos de los comentarios, los clics en anuncios y la demografía.


¿Por qué los datos no estructurados están explotando0

Los humanos y las máquinas generan datos cada minuto. Miles de millones de personas en todo el mundo interactúan con varios dispositivos digitales todos los días. Cada dispositivo, y cada actividad realizada en ese dispositivo, genera grandes cantidades de datos. Cada deslizamiento, pulsación de tecla y clic es un punto de datos. Esta fusión de datos, entre miles de millones de personas en todo el mundo, asciende a zettabytes (10 21 bytes) de información cada año.

Se trata de datos modernos y se prevé que representarán al menos el 80 % de todos los datos, incluidos los datos empresariales, para 2025.

Si aún no está realizando el "mantenimiento humano" necesario para administrar el volumen creciente de datos no estructurados, como la creación de una taxonomía para cada tipo y formato que ingresa, su gran escala será cada vez más un cuello de botella que no podrá solucionar.

Desafíos con el análisis de datos no estructurados

Dicho esto, aunque los datos no estructurados pueden proporcionar información significativa con un enorme potencial de transformación, acceder a ellos y aprovecharlos demuestra el dicho: "Sin dolor, no hay ganancia".

La naturaleza de los datos no estructurados dificulta saber qué es relevante. Algunos desafíos comunes incluyen encontrar la relevancia de los datos, discernir la calidad de la cantidad e identificar las relaciones causales entre los datos no estructurados. Recopilar y almacenar grandes cantidades de datos sin discreción significa que mucha información irrelevante queda atrapada en la mezcla y debe eliminarse.

Las técnicas modernas de aprendizaje automático son mucho más efectivas para obtener información de datos no estructurados, pero esos modelos aún son incapaces de encontrar relaciones causales. Esto no solo afecta el resultado del análisis de datos no estructurados, sino que también podría llevar a que se tomen decisiones comerciales basadas en tendencias no comprobadas o conocimientos erróneos.

Desafíos al almacenar datos no estructurados

Una pieza final de la conversación de datos "estructurados versus no estructurados" es el tema del almacenamiento. En términos generales, se enfrentará a los desafíos de volumen mencionados anteriormente, que requerirán una arquitectura de escalamiento horizontal para escalar sin problemas junto con el crecimiento de sus datos. En su mayor parte, el almacenamiento basado en disco ha sido la única opción asequible para este depósito de datos, lo que plantea desafíos de velocidad, eficiencia, longevidad y confiabilidad.

Pero también está el desafío de la variedad. Los datos no estructurados se almacenan principalmente en almacenamiento de archivos y almacenamiento de objetos:

Almacenamiento de archivos. En este caso, los datos se almacenan en archivos que se encuentran dentro de carpetas y subcarpetas. Las computadoras encuentran los datos usando rutas específicas a los archivos. Si bien esta es una opción rápida para leer y recuperar datos, no puede escalar su almacenamiento sin agregar sistemas. El aumento de la capacidad por sí solo no será suficiente.

Almacenamiento de objetos. Por último, el almacenamiento de objetos también divide los datos en pequeños fragmentos y los distribuye por el hardware. Pero la diferencia, en este caso, es que no hay jerarquía (como el almacenamiento de archivos) ni interconexiones (como el almacenamiento en bloque). Cada fragmento de datos actúa como una unidad discreta. Como resultado, puede implementarse con API simples y escalarse fácilmente. El inconveniente es que los objetos no se pueden modificar una vez que se escriben.


El potencial de los datos no estructurados en la tecnología de almacenamiento adecuada

Los datos no estructurados contienen las claves para comprender y dar forma al recorrido del cliente. El comportamiento de uso se puede estudiar para crear mejores productos, comprender a los usuarios más profundamente, identificar mejor sus intereses y recomendar productos con mayor precisión. Pero necesitará soluciones modernas que respalden sus esfuerzos.

El almacenamiento basado en disco ha sido el predeterminado debido al costo y la falta de alternativas viables y asequibles. Esto limita lo que puede hacer con los datos no estructurados a medida que crecen, mientras sobrecarga su centro de datos, porque:

El almacenamiento basado en disco requiere 10 veces la huella del centro de datos como flash

No es energéticamente eficiente, usa 10 veces más energía en comparación con el flash

Es costoso, no solo en términos del aumento de los costos de energía necesarios para alimentarlo, sino también en términos de recursos: desechos electrónicos, empleados de tiempo completo para administrarlo, bastidores adicionales y más.

Ahora, finalmente es posible consolidar y almacenar datos no estructurados, sin importar la carga de trabajo, con el almacenamiento rápido unificado de archivos y objetos (UFFO) de Pure Storage:

Flash Blade ofrece la velocidad de flash con la capacidad de escalar cualquier arquitectura de manera ágil. Es ideal para cargas de trabajo críticas que requieren velocidad y rendimiento de vanguardia.

Flash Blade ETM es ideal para grandes repositorios de datos no estructurados y cargas de trabajo diarias. Es la primera alternativa flash asequible y eficiente al disco con mejor TCO y rendimiento energético.

9 visualizaciones0 comentarios

Comments


bottom of page