Big Data · Analítica · Gobierno de Datos

Tipos de Datos

Mapa Conceptual

Gestores de Oportunidades
Juan Manuel Navarro · José Fabio Rozo
Programa Analítica y Ciencia de Datos Universidad de Cundinamarca
Estructurados
Semiestructurados
No Estructurados
Comparación
Buenas Prácticas

TIPOS DE DATOS

Nodo Central · Clasificación en Big Data
🗃️
Estructurados
Alta organización · Esquema rígido
Concepto Clave
Datos organizados en filas/columnas con esquema predefinido y tipo de dato fijo por campo.
Características Distintivas
  • Esquema fijo y rígido
  • Tipos de datos bien definidos
  • Alta integridad referencial
  • Consulta mediante SQL estándar
  • Optimizado para OLTP/OLAP
Fuentes Comunes
  • Sistemas ERP (SAP, Oracle)
  • Bases de datos relacionales (MySQL, PostgreSQL)
  • CRM (Salesforce, HubSpot)
  • Hojas de cálculo corporativas (Excel, Google Sheets)
  • Sistemas POS / transaccionales
Ejemplos Reales por Sector
  • Banca: Tabla de transacciones financieras
  • Retail: Inventario SKU/precio/stock
  • Salud: Historial clínico de pacientes (campos)
  • Logística: Registros de despacho y rutas
  • RRHH: Nómina y asistencia de empleados
Ventajas
  • Consultas rápidas y precisas
  • Fácil validación y auditoría
  • Alta compatibilidad con BI estándar
Limitaciones / Retos
  • Rigidez ante cambios de esquema
  • Escalabilidad limitada en volúmenes masivos
  • No apto para datos complejos o multimedia
Herramientas Tecnológicas
MySQL PostgreSQL Snowflake Redshift BigQuery Tableau Power BI
🔀
Semiestructurados
Esquema flexible · Autodescriptivos
Concepto Clave
Datos con estructura parcial: incluyen metadatos o etiquetas propias que describen su organización sin esquema rígido externo.
Características Distintivas
  • Autodescriptivos (tags/claves)
  • Esquema implícito o dinámico
  • Soporte a estructuras anidadas
  • Alta interoperabilidad entre sistemas
  • Formatos estándar universales
Fuentes Comunes
  • APIs REST/SOAP (respuestas JSON/XML)
  • Logs de sistemas y aplicaciones
  • Datos de sensores IoT
  • Correos electrónicos con encabezados
  • Feeds de redes sociales (Twitter API)
Ejemplos Reales por Sector
  • E-commerce: Catálogos de productos en JSON
  • Salud: Registros FHIR en XML/JSON
  • Manufactura: Telemetría IoT de máquinas
  • Fintech: Webhooks de pagos (Stripe, PayPal)
  • Gobierno: Datos abiertos en formato XML
Ventajas
  • Alta flexibilidad de esquema
  • Integración nativa entre aplicaciones
  • Escalable en plataformas NoSQL
Limitaciones / Retos
  • Inconsistencia en campos opcionales
  • Complejidad al consultar datos anidados
  • Requiere parseo/transformación previa
Herramientas Tecnológicas
MongoDB Elasticsearch Apache Kafka Apache Spark AWS Glue Databricks dbt
🌐
No Estructurados
Sin esquema · Alto volumen · Diverso
Concepto Clave
Datos sin modelo predefinido ni organización tabular. Representan la mayoría del volumen global de datos (≈ 80–90% del total).
Características Distintivas
  • Ausencia de esquema formal
  • Formatos heterogéneos (texto, imagen, audio, video)
  • Requiere técnicas de IA/ML para análisis
  • Almacenamiento en Data Lake o blob storage
  • Alta variabilidad y complejidad semántica
Fuentes Comunes
  • Redes sociales (posts, comentarios, videos)
  • Documentos PDF, Word, presentaciones
  • Imágenes médicas, satelitales, CCTV
  • Grabaciones de llamadas (contact center)
  • Correos sin estructura, chats, encuestas abiertas
Ejemplos Reales por Sector
  • Banca: Grabaciones de auditoría KYC
  • Salud: Imágenes radiológicas y ecografías
  • Retail: Reseñas de productos y fotos de clientes
  • Legal: Contratos, sentencias y expedientes
  • Medios: Videos, podcasts, transmisiones en vivo
Ventajas
  • Riqueza de información cualitativa
  • Captura contexto y matices humanos
  • Fuente de innovación en modelos de IA
Limitaciones / Retos
  • Almacenamiento y costo elevados
  • Difícil de indexar, buscar y gobernar
  • Requiere modelos avanzados (NLP, Computer Vision)
Herramientas Tecnológicas
Azure Blob S3 Hadoop HDFS TensorFlow OpenAI API Hugging Face Apache Tika
Comparación Rápida
Sección Transversal · 6 criterios
Criterio Estructurado Semiestructurado No Estructurado
Esquema Rígido / predefinido Flexible / implícito Ausente / libre
Flexibilidad Baja Media-Alta Muy Alta
Facilidad de consulta Alta (SQL) Media (JSONPath, XQuery) Baja (IA requerida)
Volumen típico GB–TB TB–PB PB–ZB
Técnicas de análisis SQL, OLAP, regresión ETL, streaming, parsing NLP, CV, deep learning
Riesgos de calidad Duplicados, nulos Campos inconsistentes Ruido, sesgos, privacidad
Buenas Prácticas
Integración moderna · ETL/ELT · Data Governance
01
Arquitectura Data LakehouseCombinar Data Lake (no estructurado) con Data Warehouse (estructurado) en una capa única.
02
ELT sobre ETLCargar primero, transformar después. Permite mayor agilidad con los tres tipos de datos.
03
Catálogo de MetadatosRegistrar origen, tipo, dueño y linaje de cada dato. Herramientas: Apache Atlas, Collibra.
04
Gobierno de Datos (Data Governance)Políticas claras de acceso, retención y calidad para cada categoría de dato.
05
Perfilado y CalidadValidar completitud, consistencia y exactitud antes de consumir datos en producción.
06
Seguridad y PrivacidadAnonimización, cifrado en tránsito/reposo y control de acceso basado en roles (RBAC).
07
Linaje de DatosRastrear transformaciones extremo a extremo para auditoría y reproducibilidad.
08
Observabilidad de DatosMonitorear pipelines en tiempo real: alertas de anomalías, drift y tiempos de latencia.