Evolución del almacenamiento de datos: De la arcilla al S3

¿Alguna vez te has preguntado cómo guardas tus datos? Ya sea que uses almacenamiento de archivos, S3, bases de datos, mantengas los archivos directamente en el servidor, o guardes todo localmente en un HDD, SSD o incluso en una memoria USB; las opciones son muchísimas, para todos los gustos y necesidades.

En este artículo, te propongo un viaje para entender la evolución del almacenamiento de datos y cómo he recorrido el camino desde las pinturas rupestres hasta el S3 privado. Esto te ayudará a entender qué tecnología es mejor usar para tus tareas.

Ilustración que muestra la evolución del almacenamiento de datos, desde tablillas de arcilla hasta los modernos servidores en la nube. Generado con Copilot — Desde la arcilla hasta la nube. Así ha sido la fascinante evolución del almacenamiento de datos a lo largo de la historia.

Tabla de Contenido

Los Inicios: De las Tablillas de Arcilla al Papel
La Era Analógica: Tarjetas Perforadas y Discos Duros
Sistemas de Archivos y Almacenamiento en Red (NAS vs SAN)
S3 y el paradigma del almacenamiento de objetos
1. S3 Público vs. S3 Privado: ¿Cuál necesitas?
¿El futuro del almacenamiento está en la descentralización?

Los Inicios: De las Tablillas de Arcilla al Papel

Comencemos con las tablillas de arcilla, una de las formas de escritura más antiguas, que apareció alrededor del 4000 a.C. en Mesopotamia. Estas tablillas planas y rectangulares se fabricaban con arcilla natural, que se mezclaba con agua hasta alcanzar un estado plástico. Después de grabar el texto cuneiforme, se secaban al sol o se cocían en hornos. Esto les confería una durabilidad asombrosa, gracias a la cual pudieron sobrevivir incluso a incendios e inundaciones.

Vista de las tablillas de arcilla primera forma almacenamiento, un método ancestral para registrar datos con escritura cuneiforme. — Mucho antes de la nube y los discos duros, las tablillas de arcilla primera forma almacenamiento eran la tecnología para guardar información valiosa.

Se sabe que hoy en día en los museos del mundo se conservan alrededor de 500,000 de estas tablillas. El material y las técnicas para su fabricación se elegían para que fueran lo más duraderas posible. Curiosamente, la arcilla conservaba las líneas finas y permitía registrar un gran volumen de información en un espacio limitado, convirtiéndose en el principal soporte de información de su tiempo.

Con el tiempo, la gente se dio cuenta de que no era muy cómodo andar con un “libro” de 20 kilos de arcilla seca. Además, los volúmenes de información que se necesitaban difundir iban en aumento. Por lo tanto, la transición al pergamino y al papel fue una respuesta a otra necesidad: la reproducción y la legibilidad.

El pergamino, fabricado a partir de pieles de animales cuidadosamente tratadas, debe su nombre a la ciudad griega de Pérgamo, que alrededor del siglo III a.C. se convirtió en su centro de producción.

Manuscrito medieval abierto mostrando el uso del pergamino como almacenamiento antiguo de información con letras iluminadas. — El pergamino como almacenamiento antiguo representó un gran avance, permitiendo la creación de libros que podían guardar mucha más información que las tablillas de arcilla.

En el siglo II a.C., los faraones egipcios prohibieron la exportación de papiro para mantener la ventaja de la Biblioteca de Alejandria. Fue precisamente la competencia con el papiro lo que estimuló a la ciudad de Pérgamo y a la cultura del Mar Negro a adoptar el uso del pergamino. Esto permitió crear libros en forma de rollos y mantener bibliotecas con mucha más flexibilidad.

El pergamino era más duradero que el papiro, ahorraba recursos y su superficie delgada y resistente permitía reescribir la información varias veces. Esto dio un fuerte impulso al desarrollo de archivos y bibliotecas donde se almacenaba el conocimiento de la humanidad.

Resultó ser un invento tan exitoso que, durante varios miles de años, la humanidad esencialmente no ideó nada mejor. Incluso los libros y la imprenta que aparecieron más tarde son, en esencia, el mismo pergamino pero a máxima potencia y a escala industrial. Un cambio cualitativo solo ocurrió hace relativamente poco, cuando la humanidad estaba al borde de la industrialización.

La Era Analógica: Tarjetas Perforadas y Discos Duros

Las cintas magnéticas y las Tarjetas perforadas marcaron en la historia del almacenamiento de datos la era de la automatización y el almacenamiento escalable. Pero, ¿cómo surgieron?

Las tarjetas perforadas aparecieron en el siglo XIX, gracias al inventor Herman Hollerith y al desarrollo de las máquinas tabuladoras. Básicamente, eran tarjetas de papel grueso con una disposición específica de agujeros que codificaban información: bits de datos, 0 y 1. Las máquinas leían estos agujeros mediante sensores mecánicos u ópticos. Las tarjetas perforadas fueron el primer paso hacia las computadoras analógicas y una de las primeras sistemas masivos de almacenamiento y procesamiento automático de información, utilizados en contabilidad, estadística y aplicaciones industriales.

Ilustración de tarjeta perforada que muestra el proceso de perforación y lectura de datos en una máquina tabuladora antigua. — Esta ilustración de tarjeta perforada muestra cómo se codificaban los datos en cartón para ser leídos por máquinas. Fue un hito clave en la automatización del procesamiento de datos.

Las cintas magnéticas, por su parte, aparecieron en 1928, cuando el ingeniero alemán Fritz Pfleumer aplicó por primera vez una capa magnética a una cinta de papel. Más tarde, en la década de 1950, las cintas magnéticas comenzaron a utilizarse masivamente en la informática con la llegada de las primeras computadoras electrónicas.

La cinta era una tira larga y estrecha de plástico o papel recubierta de un material magnético (generalmente óxido de hierro). Las cintas se convirtieron en el principal medio para el almacenamiento de respaldo, el archivo y las copias de seguridad.

Imagen de cinta magnética de carrete abierto, desenrollada y enredada, representando el almacenamiento de datos antiguo. — Esta imagen de cinta magnética muestra uno de los primeros medios de almacenamiento de datos a gran escala. Su naturaleza física y secuencial fue un paso clave antes de los discos duros.

Desde mediados del siglo XX, las cintas se convirtieron en un método barato y eficaz de almacenamiento en frío, permitiendo conservar enormes volúmenes de información con acceso secuencial. La automatización del trabajo con cintas alcanzó su apogeo con la aparición de las bibliotecas de cintas, sistemas robóticos que gestionan la selección del casete necesario y la lectura de los datos.

Una sola cinta magnética puede almacenar decenas de terabytes de información y, gracias a los sistemas de gestión modernos y al formato LTFS, los usuarios pueden acceder a archivos individuales a pesar de la naturaleza física secuencial del almacenamiento.

Todo esto evolucionó hacia el disco duro: un conjunto de platos metálicos o de vidrio recubiertos con una capa magnética que giran a alta velocidad (hasta decenas de miles de revoluciones por minuto). Para leer y escribir datos se utiliza un cabezal magnético que se mueve sobre la superficie de los platos, leyendo o escribiendo bits de información en forma de cambios magnéticos.

El primer HDD comercial fue desarrollado por IBM en 1956. Era un dispositivo del tamaño de un refrigerador que almacenaba solo unos pocos megabytes de datos. La novedad era la capacidad de acceder a cualquier parte del disco sin una búsqueda secuencial, como en las cintas magnéticas.

Una etapa posterior fue la transición de los discos duros con platos magnéticos giratorios a la memoria flash, basada en tecnologías de semiconductores. Los HDD proporcionaban acceso aleatorio a los datos, lo que fue una revolución en comparación con las cintas, pero tenían partes móviles susceptibles al desgaste y a daños mecánicos. Por su parte, la memoria flash, desde su introducción comercial en la década de 1980 y su popularización masiva a principios de los 2000, ofrece un acceso rápido, alta resistencia a los golpes y un tamaño menor. Un claro ejemplo es la diferencia entre HDD y SSD.

Persona sosteniendo en sus manos un disco duro HDD y SSD para comparar el tamaño y la tecnología de almacenamiento de datos. — La diferencia de tamaño entre los HDD y SSD es evidente en esta imagen.

Un ejemplo es el uso de la memoria flash NAND, que permitió crear unidades de almacenamiento compactas y fiables que cambiaron radicalmente la forma de almacenar datos en teléfonos inteligentes, portátiles y centros de datos. La tecnología 3D NAND, que aumenta verticalmente la densidad de almacenamiento, fue el siguiente paso, incrementando significativamente la capacidad y el rendimiento de los soportes de datos físicos.

Componentes internos de una tarjeta SD y un USB, destacando el chip de memoria flash NAND en ambos dispositivos de almacenamiento. — Así se ve por dentro el chip de memoria flash NAND, la tecnología que impulsa desde las tarjetas SD hasta los SSD modernos.

El almacenamiento flash requiere menos energía y proporciona una mayor velocidad en las operaciones de entrada/salida. Y esto, como todos vemos, es la base de los sistemas de almacenamiento modernos.

Sistemas de Archivos y Almacenamiento en Red (NAS vs SAN)

A mediados del siglo XX, los sistemas de archivos comenzaron con paradigmas primitivos como FAT (File Allocation Table), un sistema simple pero que rápidamente se volvió insuficientemente fiable para los crecientes volúmenes de información y los diferentes escenarios de escritura.

A lo largo de décadas de desarrollo, los sistemas de archivos comenzaron a responder a nuevas exigencias: protección no solo contra errores accidentales, sino también contra ataques dirigidos, fallos repentinos de los soportes y errores humanos.

Si NTFS y ext4 todavía se basaban en registros de transacciones y un mapa básico de asignación de bloques, los enfoques modernos como ZFS ya ofrecen un control de integridad muy potente, la mecánica de copy-on-write, snapshots automáticos (instantáneas del estado completo del sistema) y deduplicación de datos. Todo esto junto es una respuesta a las nuevas amenazas: corrupción silenciosa (silent corruption), ransomware y la necesidad de revertir el sistema a un estado anterior sin tiempo de inactividad ni pérdida de rendimiento.

Como base para la integridad y la disponibilidad, se encuentran los modelos RAID. En palabras sencillas, un arreglo RAID es un conjunto de varios discos unidos, donde se reserva espacio para almacenar información que permite corregir errores en los datos. Los niveles clásicos (RAID 0, 1, 5, 6, 10) siguen siendo válidos, pero la elección entre ellos siempre implica un compromiso (trade-off) entre IOPS, capacidad útil y tiempo de reconstrucción del arreglo (rebuild).

Gabinete de almacenamiento con varios discos duros extraíbles que conforman una matriz RAID para proteger los datos. — Una matriz RAID combina varios discos duros para aumentar la seguridad y el rendimiento. Es un paso crucial en la evolución hacia el almacenamiento a gran escala.

La siguiente cuestión clave es cómo lograr el acceso colectivo y compartido: SAN frente a NAS. Una SAN (Storage Area Network) se basa en el acceso a nivel de bloque y es necesaria donde se requiere un alto rendimiento y bajas latencias: bases de datos, virtualización, sistemas críticos de alta carga. Sin embargo, una SAN requiere una infraestructura especial y habilidades de administración, y su costo es notablemente más alto.

Infografía comparativa de la arquitectura NAS vs SAN, mostrando las diferencias en la conexión de red y los componentes. — Entender la diferencia entre NAS vs SAN es clave en el almacenamiento en red. Este diagrama muestra cómo NAS usa la red local y SAN crea una red dedicada para el almacenamiento.

Un NAS (Network Attached Storage) funciona con acceso a nivel de archivo, es fácil de conectar y es ideal para el almacenamiento general de documentos, copias de seguridad e intercambio de archivos en una organización. Internamente, un NAS a menudo utiliza los mismos sistemas de archivos, como ext4, Btrfs o ZFS. En cambio, una SAN ofrece dispositivos en bruto (raw) para tareas específicas donde la gestión estricta de bloques y el rendimiento son cruciales.

Durante mucho tiempo, los sistemas de archivos locales simplemente no podían hacer frente a los crecientes volúmenes de datos. Sus limitaciones en el tamaño de las unidades y el número de inodos, así como la falta de capacidad para escalar horizontalmente, obligaron a buscar nuevas soluciones. Esto se volvió especialmente crítico con la aparición de equipos distribuidos y tecnologías de contenedores, que requerían formas flexibles y escalables de trabajar con los datos.

Imagina esto: en lugar de la estructura familiar de carpetas, tienes un conjunto (pool) de objetos, cada uno con su propio identificador. Esto elimina la limitación de un solo nodo y permite escalar tranquilamente hasta petabytes de datos y billones de archivos, sin temor a alcanzar un límite.

Sistemas como Ceph, GlusterFS, SeaweedFS y otros permitieron pasar al siguiente nivel: ahora el almacenamiento y el acceso a los datos se han vuelto flexibles, fiables y extremadamente escalables, adaptándose a las necesidades reales de las infraestructuras de TI modernas sin los cuellos de botella tradicionales.

S3 y el paradigma del almacenamiento de objetos

El almacenamiento de objetos, como Amazon S3, es un modelo que gestiona datos como unidades discretas llamadas objetos. A diferencia de los sistemas de archivos jerárquicos, cada objeto contiene los datos, metadatos y un identificador único global. Esto permite una escalabilidad masiva y un acceso eficiente, ideal para aplicaciones en la nube, backups y Big Data.

La evolución del almacenamiento de datos alcanzó un nuevo nivel con la llegada de las tecnologías en la nube y S3.

Simple Storage Service (conocido como S3) fue creado por Amazon en 2006 y se convirtió en uno de los primeros almacenamientos en la nube escalables con una API simple pero potente para trabajar con objetos de datos.

La diferencia fundamental de S3 con respecto a los almacenamientos de archivos o bloques clásicos es su modelo de almacenamiento de objetos, en el que cada objeto guardado recibe una clave única y va acompañado de un conjunto de metadatos, convirtiéndose en una “unidad de significado” independiente para la aplicación.

En pocas palabras, S3 es un almacenamiento tolerante a fallos, escalable y conveniente que se encarga por sí mismo de la distribución y seguridad de los datos, liberando a los desarrolladores de las complejidades técnicas.

Técnicamente, es un espacio plano y no jerárquico, un flat namespace. Los objetos se identifican por su ID, lo que elimina las limitaciones de la jerarquía clásica y simplifica la escalabilidad. Sin estructuras anidadas complejas, la gestión es más sencilla. El tiempo de acceso a los objetos es estable, independientemente del volumen del almacenamiento.

El versionado de objetos permite guardar cada historial de cambios y retroceder rápidamente si es necesario. Esto es crucial tanto para las copias de seguridad como para la protección contra eliminaciones accidentales o ataques. Los metadatos son ciudadanos de primera clase (first-class citizens) que se pueden ampliar y utilizar en búsquedas y flujos de trabajo automatizados.

Ilustración que compara el almacenamiento de archivos, de bloques y el almacenamiento de objetos, el paradigma de S3. — Este gráfico explica la diferencia entre almacenamiento de archivos, bloques y el modelo de S3 y el paradigma del almacenamiento de objetos.

El escalado horizontal sin particionamiento manual (sharding) es una característica de S3. No tienes que preocuparte por la distribución de datos entre nodos, su replicación o su tolerancia a fallos: la plataforma lo gestiona todo, permitiendo crecer “de gigabyte a petabyte”, desde aplicaciones móviles hasta plataformas empresariales. Esto permite construir arquitecturas basadas en eventos (event-driven), donde los cambios en los datos desencadenan procesos automáticos de procesamiento, auditoría, reenvío e incluso aprendizaje automático casi en tiempo real.

Normalmente, los almacenamientos se subdividen en clases según su “temperatura”. El almacenamiento estándar se utiliza, obviamente, para tareas frecuentes: análisis de Big Data, almacenamiento y entrega de multimedia. Una ventaja es que el costo de las solicitudes y el tráfico es bajo.

Profundicemos más. El almacenamiento en frío (cold storage) es para copias de seguridad, archivos… en general, todo lo que usas con poca frecuencia. Lo bueno es que es más barato que el estándar, pero el costo de las solicitudes y el tráfico es mayor.

Y la parte más profunda de nuestra inmersión: el almacenamiento glacial (ice storage). Es adecuado para almacenar objetos que se leerán y modificarán muy raramente: copias de seguridad de larga duración, registros y documentos. Utiliza el tipo de replicación Erasure Coding. El costo de almacenamiento es el más bajo, mientras que el de las solicitudes y el tráfico es el más alto.

Las diferentes clases de almacenamiento pueden tener distintas implementaciones técnicas. Esto se aplica tanto a nivel de aplicación como de infraestructura: desde el almacenamiento en cinta hasta los discos NVMe. Sin embargo, la diversidad de opciones técnicas es más bien tema para otro artículo.

Los almacenamientos S3 pueden ser privados o públicos. Pero, ¿cuál es la diferencia real para ti? Veamos.

S3 Público vs. S3 Privado: ¿Cuál necesitas?

S3 Público

Un S3 público es un servicio de almacenamiento de objetos ofrecido por proveedores de nube como Amazon Web Services (AWS), Google Cloud o Microsoft Azure. En este modelo, múltiples clientes (usuarios) comparten la misma infraestructura masiva, aunque sus datos están lógicamente separados y seguros en contenedores o buckets individuales.

Es una solución ideal para una gran variedad de casos de uso, desde alojar sitios web estáticos y distribuir contenido multimedia hasta almacenar copias de seguridad y grandes volúmenes de datos para análisis.

S3 Privado

Un S3 privado, por otro lado, es una implementación de almacenamiento compatible con la API de S3 que se despliega en una infraestructura dedicada para un solo cliente. Esto puede ser en el propio centro de datos de la empresa (on-premise) o en hardware aislado dentro de un proveedor de nube. El objetivo es obtener un control total sobre el entorno, un rendimiento predecible y cumplir con estrictos requisitos de seguridad o soberanía de datos.

¿El futuro del almacenamiento está en la descentralización?

En los próximos años, la evolución del almacenamiento de datos apunta al desarrollo de modelos híbridos que combinen nubes clásicas, centros de datos locales, computación en el borde (edge) y redes descentralizadas con soporte de IA. Quizás de esto surja un impresionante sistema global de datos, lo más cercano posible a los usuarios finales, que abra nuevas oportunidades para los negocios y la sociedad. O quizás la IA se involucre tan activamente en la gestión del almacenamiento que cree un Skynet de sistemas inteligentes y autogestionados, minimizando la participación humana en todo su esplendor.

En la base de tales sistemas se encuentra IPFS (InterPlanetary File System), un sistema que organiza el direccionamiento del contenido a través de hashes criptográficos únicos. Existen modelos como Filecoin y Storj. En ambos, los usuarios que necesitan espacio para sus datos firman contratos con aquellos que ofrecen espacio libre en sus discos. A cambio, los mineros/proveedores de almacenamiento reciben una recompensa en su propia criptomoneda (tokens FIL o STORJ) por almacenar de forma segura y entregar rápidamente los datos.

Filecoin, por ejemplo, utiliza dos tipos de pruebas criptográficas: PoRep y PoST. PoRep (Proof-of-Replication) es una prueba que confirma la creación de una copia única. PoST (Proof-of-Spacetime) garantiza que los datos se almacenan de forma continua durante el período requerido. El mercado de Filecoin es abierto y permite a los clientes elegir proveedores con el precio y las condiciones que necesiten.

En cualquier caso, cada uno de estos modelos merece un artículo aparte.