Peter Naur denominó Data Science por primera vez en el año 1974. Pero el viaje había comenzado en la antigüedad. Aquí hay una crónica sobre la historia de la ciencia de datos, trazando su camino desde los métodos de recopilación formativos hasta las formas más avanzadas de procesamiento de datos.
La ciencia de datos ha conquistado al mundo. No es un tema único, sino un término que abarca todo, que incluye programación, extracción de datos, estadísticas, visualización de datos, análisis e inteligencia empresarial.
La ciencia de datos es el proceso completo de recopilar grandes conjuntos de datos, administrarlos y obtener información para varios propósitos productivos. El campo de la ciencia de datos está en constante evolución para mantenerse al día con la tecnología cambiante y las prácticas comerciales.
Los datos estadísticos son la fuerza impulsora detrás del desarrollo de la ciencia, la contabilidad, la logística y otros negocios. La ciencia de datos como la conocemos en los tiempos actuales tiene una breve historia. Pero, la recopilación de datos a escala masiva y su análisis existen desde la antigüedad. Bibliotecarios, científicos, estadísticos y demógrafos han discutido y trabajado con grandes conjuntos de datos durante años.
Hoy en día, el análisis de datos y la extracción de información de ellos se ha convertido en la tarea más codiciada e intrigante. Incluso ha dado lugar a un nuevo rol profesional en forma de científico de datos. Famoso por su trabajo en Big Data, el periodista estadounidense Kenneth Cukier dijo que los científicos de datos “combinan las habilidades de programador de software, estadístico y narrador/artista para extraer las pepitas de oro escondidas bajo montañas de datos”.32
En este artículo, recordamos la historia de la ciencia de datos con sus numerosos hitos.
1663: Recopilación extensa de datos demográficos de John Graunt
En 1663, John Graunt, un demógrafo británico, registró y analizó toda la información sobre las tasas de mortalidad en Londres.1 El objetivo de Graunt era construir un sistema de alerta eficaz para la epidemia de peste bubónica. John usó la Regla de tres y usó proporciones comparando años en las Cuentas de mortalidad para estimar el tamaño de la población de Londres e Inglaterra, las tasas de natalidad y mortalidad de hombres y mujeres, y el aumento y la propagación de enfermedades particulares. Graunt también es conocido como el ‘padre de la demografía’2.
Durante su primer intento de análisis de datos estadísticos, Graunt anotó todas sus observaciones y hallazgos en el libro Natural and Political Observations Made upon the Bills of Mortality. Este libro fue compilado en base a los datos recopilados por John Graunt y ofrece una descripción detallada de las causas de muerte en el siglo XVII.
1763: Teorema de Bayes
Publicado póstumamente en 1763, el teorema de probabilidad condicional de Thomas Bayes es una de las piedras angulares de la ciencia de datos.3 Esta probabilidad condicional se conoce como hipótesis. Esta hipótesis se calcula a través de evidencias o conocimientos previos. El teorema de Bayes tiene como objetivo revisar las predicciones o teorías existentes (probabilidades de actualización) y ofrece evidencia adicional. Esta probabilidad condicional es la posibilidad de un evento si ya ha ocurrido algún otro evento.
1840: Ada Lovelace: la primera programadora informática
La programación es fundamental para la ciencia de datos, y la persona que la inició en el siglo XVII fue Ada Lovelace, una mujer de la nobleza inglesa. Ada Lovelace era socia de Charles Babbage, el “padre de las computadoras”. Lovelace trabajó con Babbage en la “Máquina Diferencial”, una calculadora mecánica.4
En 1840, Ada Lovelace estaba trabajando en un proyecto de traducción de un artículo escrito por un ingeniero italiano, Luigi Manabrea. El artículo era del libro: “Sketch of the Analytical Engine Invented by Charles Babbage, Esq” publicado en francés. Sin embargo, fue mucho más allá de traducirlo. Incluyó notas extensas en el documento, incluidas algunas de sus teorías y su análisis de las extensas.Ilustración de Ada Lovelace
En agosto de 1843, el trabajo traducido se publicó en las Memorias científicas de Taylor y su apéndice final, la Nota G, se hizo extremadamente famoso. En el artículo, Lovelace propuso un algoritmo para el motor de cálculo de los números de Bernoulli. Estos son una serie compleja de números racionales que se usan con frecuencia en aritmética y computación.
Esta es la primera instancia de programación de computadoras, que sucedió incluso antes de que la gente pensara que se inventaría la computadora moderna. Ursula Martin, biógrafa de Ada Lovelace y profesora de ciencias de la computación en la Universidad de Oxford, dijo: “Ella escribió un programa para calcular algunos números bastante complicados, los números de Bernoulli… Esto muestra las cosas complicadas que la computadora podría haber hecho”.5
Aunque el algoritmo de Ada Lovelace no está directamente relacionado con la ciencia de datos, fue la primera en sentar las bases de la programación. Sin este salto significativo, la ciencia de datos hubiera sido imposible de imaginar.
1855: Florence Nightingale, la reformadora médica victoriana, utilizó la visualización de datos
Florence Nightingale fue un ícono victoriano también conocido como uno de los fundadores de la enfermería moderna. Era conocida como la pionera en el uso de estadísticas y visualización de datos para analizar la propagación de enfermedades infecciosas.6
Hoy podemos luchar contra una pandemia gracias a los prácticos sistemas de información establecidos por países de todo el mundo. Pero en el siglo XVII, tal sistema era inaudito. Según la historiadora de estadísticas Eileen Magnello del University College London, el diagrama de Nightingale, Rose es una variación de un gráfico circular o un gráfico de área polar. A través del diagrama, mostró que las malas condiciones sanitarias, y no las heridas de guerra, fueron las responsables de la muerte de los soldados ingleses durante la Guerra de Crimea en la década de 1850. También afirmó que tales muertes eran evitables. Nightingale usó datos que ella y su personal recopilaron durante su servicio en los campamentos y el hospital.La famosa visualización de datos de Nightingale muestra soldados ingleses muriendo de cólera y enfermedades prevenibles frente a heridas de batalla durante la Guerra de Crimea.
Nightingale también hizo una serie de otros gráficos para convencer a las autoridades sobre la importancia del saneamiento. Las visualizaciones eran una de las formas preferidas de comunicación de Nightingale. Ella dijo: “Siempre que me enfurezco, me vengo con un nuevo diagrama”.
Eventualmente, las ideas de Nightingale comenzaron a ser reconocidas y se atendieron las necesidades sanitarias de los pacientes en los hospitales militares y civiles.
1865: Se acuña el término Business Intelligence
En 1865, Richard Miller Devens, un historiador y autor estadounidense, utilizó por primera vez la frase “Inteligencia empresarial” (BI) en su obra Cyclopædia of Commercial and Business Anecdotes. Hoy en día, conocemos la inteligencia comercial como el análisis de datos y la creación de información procesable para resolver varios problemas comerciales.78
Devans lo usó para describir cómo Sir Henry Furnese, un banquero inglés, obtuvo ganancias masivas de la información al recopilar datos de varias fuentes y actuar en consecuencia para superar a sus competidores.
Afirmó: “A lo largo de Holanda, Flandes, Francia y Alemania, mantuvo un tren completo y perfecto de inteligencia empresarial. La noticia de las muchas batallas libradas fue así recibida primero por él, y la caída de Namur se sumó a sus ganancias, debido a que recibió la noticia antes de tiempo”.
1884: Hollerith marca el comienzo del procesamiento de datos
En 1884, Herman Hollerith, un inventor y estadístico estadounidense, inventó la máquina tabuladora de tarjetas perforadas, que marcó el comienzo del procesamiento de datos. Hollerith también es conocido como el padre de la computación automática moderna.9
Este dispositivo de tabulación que desarrolló Hollerith se usó más tarde para procesar los datos del censo de EE. UU. de 1890. Más tarde, en 1911, fundó Computing-Tabulating-Recording Company, que se convirtió en International Business Machine o IBM.Operador de computadora de la Oficina del Censo de EE. UU. En un clasificador de tarjetas perforadas
1936: Alan Turing presentó los ‘Números computables’
En 1936, el artículo de Alan Turing, On Computable Numbers, presentó la Máquina Universal que realiza cálculos complejos como nuestras computadoras modernas.10 El artículo propagó la descripción matemática de un dispositivo informático hipotético que podría imitar la capacidad de la mente humana para manipular símbolos. No estará mal decir que Turing ha sido pionero en la informática moderna a través de sus conceptos innovadores.Una máquina enigma en exhibición fuera del Instituto Alan Turing dentro de la Biblioteca Británica de Londres
Según Turing, los “números computables” son aquellos que una regla definida puede definir y calcular en la máquina universal.11 También afirmó que estos números computables “incluirían todos los números a los que se pudiera llegar a través de operaciones aritméticas, encontrando raíces de ecuaciones , y usando funciones matemáticas como senos y logaritmos, cada número que pueda surgir en las matemáticas computacionales”.
1937: IBM obtiene un contrato de seguridad social
La administración de Franklin D. Roosevelt en los EE. UU. encargó el primer proyecto de datos significativo en 1937. Esto sucedió después de que la Ley del Seguro Social se convirtiera en ley en 1935.12 El gobierno había emprendido un proyecto de contabilidad masivo para rastrear las contribuciones de nómina de 26 millones de estadounidenses y más de 3 millones de empleadores. Finalmente, IBM recibió el contrato para desarrollar una máquina lectora de tarjetas perforadas para este proyecto llamada cotejadoras IBM Tipo 77.13Artículo de noticias, Sunday News, 10 de enero de 1937
Estos compaginadores podrían trabajar con dos juegos de tarjetas perforadas, compararlas y luego unirlas en una sola pila. La máquina era lo suficientemente eficiente como para manejar casi 480 tarjetas por minuto.
Los intercaladores surgieron como la forma más rápida de combinar conjuntos de datos o identificar tarjetas duplicadas. El impacto del dispositivo fue tan fuerte que las tarjetas perforadas de 80 columnas que usaban las compaginadoras IBM Tipo 77 se convirtieron en un estándar de la industria durante los siguientes 45 años.
1943: Las primeras máquinas de procesamiento de datos
En 1943, Tommy Flowers, el ingeniero electrónico de la oficina de correos del Reino Unido, diseñó una computadora teórica, Colossus.14 Fue una de las primeras máquinas de procesamiento de datos que interpretó los códigos nazis durante la Segunda Guerra Mundial. El Colossus podría realizar operaciones booleanas, así como cálculos para analizar enormes conjuntos de datos.15
Este revolucionario dispositivo buscaba patrones en los mensajes interceptados a una velocidad de 5.000 caracteres por segundo, reduciendo el tiempo de ejecución de semanas a unas pocas horas.
Tommy Flowers hizo un avance significativo al proponer que los patrones de las ruedas se pueden generar electrónicamente en circuitos de anillos. Esto implicó quitar una cinta de papel y eliminar por completo el problema de sincronización.
1962: John Tukey proyectó el impacto de la computación electrónica en el análisis de datos
En 1962, John W. Tukey proyectó el impacto de la computación electrónica actual en el análisis de datos.16 Tukey era un químico convertido en estadístico que contribuyó principalmente a las estadísticas durante el siglo XX. También fue pionero en un importante proyecto de investigación para estudiar varios métodos gráficos para el análisis de datos. La invención del diagrama de caja y bigotes, el diagrama de tallo y hojas y las comparaciones pareadas de Tukey son tres de las contribuciones más preciadas de Tukey a la estadística.
John W. Tukey también fue autor de “El futuro del análisis de datos” en 1962, que fue la primera vez en la historia en que la ciencia de datos fue reconocida a nivel mundial. Curiosamente, Tukey introdujo el término “bit” como una contracción de “dígito binario”. En el libro “Annals of the History of Computers”, se acredita a Tukey como la persona detrás de la palabra “bit”, una contracción de “binary digit”, el término que describe los 1 y 0 que son la base de los programas de computadora.
1974: Peter Naur analiza el procesamiento de datos contemporáneo
En 1974, Peter Naur definió el término “ciencia de datos” como “La ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias”. 17 Publicó el libro Encuesta concisa de métodos informáticos en Suecia y los Estados Unidos, que analiza los métodos de procesamiento de datos contemporáneos en muchas aplicaciones. La mención de Data Science en el libro gira en torno a los datos tal como se definen en el plan de estudios denominado Datalogy presentado en el Congreso de la IFIP en 1968. La definición de datos es “una representación de hechos o ideas de manera formalizada capaz de ser comunicada o manipulada por algún proceso.”
1977: Se estableció la Asociación Internacional de Computación Estadística
En 1977, la Asociación Internacional de Computación Estadística (IASC, por sus siglas en inglés) se estableció como una Sección del ISI durante su sesión número 41.18 El principal organismo estadístico declaró: “La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna, y el conocimiento de los expertos del dominio para convertir los datos en información y conocimiento”. Los objetivos de la Asociación son promover un interés global en la computación estadística práctica e intercambiar conocimientos técnicos a través de varios eventos de redes internacionales entre estadísticos, profesionales de la computación, corporaciones, el gobierno y el público en general.
1977: Análisis de datos exploratorios por Tukey
El análisis exploratorio de datos es una rama que analiza conjuntos de datos para resumir sus características principales, utilizando métodos como visualización de datos y gráficos estadísticos.19 En 1977, John W. Tukey escribió el libro Análisis exploratorio de datos, donde argumentó que las estadísticas otorgaban una importancia indebida a las hipótesis estadísticas. pruebas (análisis de datos confirmatorios). El objetivo detrás de este enfoque era examinar los datos antes de aplicar un modelo de probabilidad específico. Tukey también mencionó que mezclar los dos tipos de análisis y usarlos en el mismo conjunto de datos podría generar un sesgo sistemático. Esto se debe principalmente a la prueba de hipótesis inherente sugerida por un conjunto de datos determinado.
1989: El surgimiento de la minería de datos
En 1989, Gregory Piatetsky-Shapiro organizó y presidió el primer taller de descubrimiento de conocimiento en bases de datos (KDD).20 El término “Descubrimiento de conocimiento en bases de datos” (KDD) fue acuñado por Gregory Piatetsky-Shapiro. En la década de 1990, el término “minería de datos” apareció por primera vez en la misma comunidad de bases de datos.
Hoy en día, casi todas las industrias aprovechan la minería de datos para analizar datos e identificar tendencias para lograr objetivos comerciales como la expansión de la base de clientes, la predicción de precios, las fluctuaciones en los precios de las acciones y la demanda de los clientes.
1996: El término ‘ciencia de datos’ se utiliza por primera vez
Por primera vez en 1996, el término “ciencia de datos” se incluyó en el título de la quinta conferencia de la Federación Internacional de Sociedades de Clasificación (IFCS) en Kobe, Japón. La reunión se denominó “Ciencia de datos, clasificación y métodos relacionados”.(21)
Los trabajos presentados durante la conferencia estuvieron relacionados con el campo de la ciencia de datos, incluidos los avances teóricos y metodológicos en dominios sobre recopilación, clasificación y agrupación de datos. Las sesiones de intercambio de conocimientos también giraron en torno al análisis de datos exploratorios y multivariados.
1997: Jeff Wu insiste en que las estadísticas sean renombradas como ciencia de datos
En 1997, Jeff Wu, durante su conferencia inaugural titulada “¿Estadísticas = ciencia de datos?” como HC Carver, catedrático de Estadística de la Universidad de Michigan, sugirió que las estadísticas se renombraran como “ciencia de datos” y que los estadísticos se llamaran “científicos de datos”.22 Caracterizó las estadísticas como una combinación de tres elementos, recopilación de datos, modelado y análisis de datos y toma de decisiones.
Wu, un matemático y estadístico taiwanés explicó que un nuevo nombre ayudaría a las estadísticas a tener una identidad distinta y evitar la confusión con otras corrientes como la contabilidad o la recopilación de datos.
1997: Se acuñó el término ‘Big Data’
En 1997, los investigadores de la NASA, Michael Cox y David Ellsworth, utilizaron por primera vez la palabra ‘Big Data’ en su artículo, “Paginación de demanda controlada por aplicaciones para visualización fuera del núcleo”.30.
Big Data se refiere a enormes conjuntos de datos que las herramientas de software y los sistemas informáticos habituales no pueden manejar. En abril de 1998, John R. Mashey, científico informático y empresario estadounidense, utilizó el término Big Data en su artículo Big Data… and the Next Wave of InfraStress.31
2001-2005: la ciencia de datos gana importancia
El mérito es de William S. Cleveland por establecer la ciencia de datos como una disciplina independiente. En un artículo de 2001, pidió una expansión de las estadísticas más allá de la teoría hacia las áreas técnicas.23 Después de principios de 2000, el término “ciencia de datos” se volvió más utilizado en los años siguientes: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó Data Science Journal. En 2003, la Universidad de Columbia lanzó The Journal of Data Science.24
En 2005, la Junta Nacional de Ciencias solicitó una trayectoria profesional distinta para la ciencia de datos para garantizar que los expertos manejen la recopilación de datos digitales.25 promover a los científicos de datos.
2006: Se lanzó Hadoop 0.1.0
2006 vio el lanzamiento de Hadoop 0.1.0, una base de datos no relacional de código abierto. Hadoop se basó en otra base de datos de código abierto, Apache Nutch.26 Yahoo implementó Hadoop usando el modelo de programación de MapReduce para procesar y almacenar volúmenes masivos de aplicaciones de varias bases de datos.
El lanzamiento de Hadoop también marcó el comienzo de Big Data. Doug Cutting y Mike Cafarella comenzaron a trabajar en Hadoop en 2002 cuando ambos formaban parte del proyecto Apache Nutch. El objetivo central detrás del proyecto Nutch era manejar miles de millones de búsquedas e indexar millones de páginas web. En julio de 2008, Apache examinó con éxito un clúster de 4000 nodos con Hadoop.
Finalmente, Apache Hadoop fue lanzado públicamente en noviembre de 2012 por Apache Software Foundation. Hadoop funciona dividiendo los archivos en bloques grandes y distribuyéndolos entre los nodos de un clúster. Después de esto, transfiere el código empaquetado a varios nodos, lo que permite el procesamiento de datos en paralelo. Esto permitió un procesamiento más rápido y eficiente del conjunto de datos.
2007: Se estableció el Centro de Investigación de Dataología y Ciencia de Datos
En 2007, se estableció el Centro de Investigación de Dataología y Ciencia de Datos en la Universidad de Fudan, Shanghái, China.27 En 2009, Yangyong Zhu y Yun Xiong, dos de los investigadores de la universidad, publicaron “Introducción a la Dataología y la Ciencia de Datos”, donde manifestaron que la Dataología y la Ciencia de Datos es una ciencia nueva y un campo de investigación independiente, diferente a las ciencias naturales y que toma como objeto de investigación los datos del ciberespacio. 28
El 22 y 23 de junio de 2010, el Centro de Investigación de Dataología y Ciencia de Datos de la Universidad de Fudan, China, organizó el “Primer Taller Internacional sobre Dataología y Ciencia de Datos”. Contó con la participación de más de 30 académicos de campus nacionales e internacionales que intercambiaron ideas sobre “Dataología y ciencia de datos”.
2014: AMSAT cambia de nombre a Sección sobre Aprendizaje Estadístico y Ciencia de Datos
En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja claramente la popularidad de la ciencia de datos.29 El cambio de nombre de la sección puede parecer un pequeño paso, pero significa que la ASA ha dado un paso significativo para fortalecer la conexión entre la estadística y la ciencia de datos.
caminando hacia adelante
La ciencia de datos ha evolucionado enormemente durante la última década y ha conquistado todas las industrias que dependen de los datos. También existe una demanda masiva de científicos de datos de diversos antecedentes académicos y profesionales.
Las reservas de datos han experimentado un aumento exponencial, gracias a los avances en el almacenamiento y el procesamiento y el almacenamiento que son rentables y eficientes. Según IDC, para 2025 habrá más de 175 zettabytes de datos en todo el mundo.
En días anteriores, los datos no eran tan accesibles como en la actualidad. Además, las personas eran demasiado escépticas acerca de compartir su información. Incluso hoy en día, la privacidad y la ética son la base de la recopilación de datos. Por lo tanto, cada científico de datos debe operar dentro de un marco ético a medida que se expande el volumen de datos.
Los expertos creen que la automatización, blockchainel análisis y la democratización darán forma al futuro de la ciencia de datos como una función central de la gestión empresarial.
Fuentes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, dieciséis, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32