Implementar un proyecto de big data: ¿Algoritmos empaquetados o código from scratch?

Como hemos comentado, el Big Data consiste en procesar y analizar enormes cantidades de datos para entregar una respuesta. Entonces, partimos de la premisa que todo proyecto de Data Science comienza con una pregunta: ¿Qué quiere mi cliente? ¿Cómo puedo mejorar la logística de mi negocio? ¿Cómo es la persona que está comprando mi producto? Pueden ser algunas de las interrogantes que motiven a indagar en el mundo de la ciencia de datos.

Para responder estas preguntas se recoge la mayor cantidad de datos posibles de la empresa, con la finalidad de traducirlos en respuestas predictivas que impulsen acciones de valor para una organización. Pero, ¿cómo se procesan y analizan? A través de herramientas que permitan anticipar lo que va a pasar automáticamente, más conocidas como  algoritmos.

Según la Organización para la Cooperación y el Desarrollo Económicos (OCDE), un algoritmo es “secuencia de reglas que se deben ejecutar en un orden preciso para llevar a cabo una determinada tarea”, en el caso del big data, traducir los datos que den señales de patrones o relaciones entre diferentes variables.

Para encontrar soluciones a un problema a través de la ciencia de datos es necesario automatizar el procesamiento de la información y para esto se utilizan los algoritmos. Sin embargo, la alta demanda de las empresas por analizar sus datos ha llevado a diversas compañías de Data Science a entregar algoritmos empaquetados, algo así como herramientas genéricas aplicadas de manera simplificada para entregar múltiples resultados.

Ahora bien, ¿pueden los proyectos acomodarse a algoritmos genéricos o empaquetados? ¿Es esta una solución óptima? Claramente, al utilizar una de estas soluciones saldrá a la luz información relevante para una empresa, pero no es personalizada. Es decir, claro, vas a tener información a través de tus datos, pero ¿es la necesaria para sacar un real potencial a tu data?

Si hiciéramos una analogía, usar datos empaquetados para obtener ventaja competitiva mediante el big data es como si supieras que necesitas zapatos, los datos empaquetados te dirían, por ejemplo, que unos de bowling te vendrían bien, porque has practicado esta actividad. Sin embargo, un análisis profundo de tus antecedentes revelaría que para tu necesidad específica necesitas zapatos outdoor, porque estás descubriendo el trekking. O sea, los algoritmos empaquetados pueden hacer una lectura de tu empresa, pero sólo un código personalizado podrá darte la información que te ayudará a marcar la diferencia.

En este sentido, es más recomendable utilizar un código desde cero o, como se dice en la jerga informática, “from scratch”, esto permitirá acomodar las necesidades de tu empresa a las respuestas específicas que se necesitan despejar con el uso de los datos. Es algo así como comprar una casa. Puedes comprar una casa prefabricada y seguramente va a dejarte conforme, pero, vamos ¿a quién le gustaría fabricar una casa bajo una idea nueva, única y personalizada?

En Dataciencia preferimos crear códigos nuevos que se acomoden a cada caso estudiado. Año tras año, escribimos miles de líneas de código con el objetivo de realizar proyectos que cumplan con las expectativas de los clientes. Parte de nuestra filosofía apunta a identificar cada negocio como un caso particular y único en sí mismo, por lo que nos resulta muy general adjudicarle un algoritmo pre-establecido.

Hoy en día el mercado ofrece una gran cantidad de soluciones empaquetadas, “cajitas” con soluciones moldeables a cada caso, pero nunca será lo mismo que crear algo desde cero con características propias. Si volvemos a la pregunta del comienzo, ¿algoritmos empaquetados o código from scratch? ser original siempre es más satisfactorio que ser parte de la masa. En definitiva, ambas sirven para vivir, pero sólo una cumple el sueño. Adivina cuál.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *