¿Cuántos datos necesito para un proyecto de Data Science?

En la era tecnológica actual todo se traduce a datos. De hecho, ya ni siquiera hablamos de Gigas, ahora todos los antecedentes online se miden en exabytes, hasta zettabytes¿Qué hacer con ellos? ¿cuántos son necesarios para realizar un proyecto de Data Science efectivo para una empresa?

Desde el uso cotidiano del teléfono móvil, mail, respuesta de encuestas en línea, registro de compras hasta el uso de la tarjeta de crédito, todo se convierte en una fuente importante de información que puede ser utilizada con múltiples fines. Conocer mejor al cliente/usuario y entregarle una mejor experiencia suelen ser los objetivos más requeridos actualmente.

Entonces, sabemos que los datos están más disponibles que nunca. Lo primero para realizar un proyecto de Data Science es contar con la información necesaria, lo que no resulta difícil tras la digitalización actual. Es probable que alguna data previa deba ser traspasada desde el papel, si fuera necesario contar con antecedentes de un pasado muy anterior.

Por otra parte, tenemos claridad que una empresa genera miles de datos diarios. ¿Qué hacen con toda esta información? La mayoría, no mucho realmente. Las compañías suelen utilizar entre el 2 y el 5% de los datos que poseen, el resto…se pierde en el éter. Sin embargo, todos estos antecedentes que no son tomados en cuanta pueden entregar conclusiones de gran valor, tal como ¿Por qué les gusto a mis clientes? ¿Por qué me rechazan? ¿Qué les gustaría que cambiara? ¿Qué es lo que más consumen y cómo lo hacen? ¿Cuál es el perfil preciso de mi consumidor? ¿Cuál es su rutina de compra y de vida? ¿Para qué utilizan mi producto o servicio? Entre otras.

¿Cómo dilucidar estas preguntas? ¿Basta con tener una gran cantidad de datos? No. La verdad es que no basta con tener muchos datos. De hecho, para ser precisos, si nos preguntamos ¿Cuántos datos necesito para hacer un proyecto de Data Science? La respuesta la encontramos en el “muestreo”, que es la cantidad de datos suficientes para determinar comportamiento, y programar un modelo.

Exacto, esto no es cosa de cantidad, sino más bien de calidad. En Dataciencia hemos repasado las 7V del Big Data, entre las que se encuentra la “variedad”, factor que se refiere a que los datos deben ser diversos y provenir desde diferentes fuentes para ser analizados. Sin embargo, no hay un número mínimo ni máximo de data requerida para un proyecto, sino más bien, una masa de datos necesarios para lograr el objetivo que la compañía tenga.

Debemos ver los datos como un medio para conseguir un fin, no como un fin en si mismo. De esta manera, extraer información relevante se traduce en encontrar los antecedentes necesarios para desarrollar un proyecto. Sólo se puede dejar de buscar y explotar data cuándo no hay puntos de mejora después del análisis de la misma”, señaló Ricardo Núñez, Co- Founder y CTO de Dataciencia.

Si tras el contraste de la información siguen existiendo puntos oscuros en el proyecto, siempre va a ser necesario ir por más datos. Por esto, no depende de la cantidad, sino del objetivo el proyecto y la calidad de la información recopilada.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *