Descubra cómo ManM Direct logró multiplicar x10 la eficiencia en Ciencia de Datos

MandM Direct alcanza un avance significativo en la gestión escalable de modelos gracias a Dataiku y Google Cloud Platform (GCP). Esto se logra al crear y mantener una cultura centrada en la ciencia de datos que permite operacionalizar diez veces más modelos en comparación con un enfoque basado únicamente en el código.
Este enfoque respalda una amplia variedad de casos de uso, incluyendo la implementación de campañas de marketing altamente personalizadas.
Las organizaciones pasan de experimentar con el aprendizaje automático a escalarlo en entornos de producción, pero una dificultad en el entorno de producción es el mantenimiento. ¿Cómo pueden las empresas pasar de administrar solo un modelo a administrar decenas, cientos o incluso miles sin problemas?.
“A medida que la comunidad de aprendizaje automático continúa acumulando años de experiencia con sistemas en vivo, ha surgido una tendencia generalizada e incómoda: desarrollar e implementar sistemas ML es relativamente rápido y barato, pero mantenerlos con el tiempo es difícil y costoso”.
Este es exactamente el desafío al que se enfrenta MandM Direct, uno de los minoristas en línea más grandes del Reino Unido con más de 3,5 millones de clientes activos y siete sitios web dedicados del mercado local en toda Europa. La compañía entrega más de 300 marcas anualmente a 25+ países en todo el mundo, lo que significa que, en 2020, crecieron rápidamente. Su crecimiento acelerado significó más clientes y, por lo tanto, más datos, lo que magnificó algunos de sus desafíos y los empujó a encontrar soluciones más escalables.

Desafíos
El rápido crecimiento de MandM Directs resultó en dos grandes desafíos:
- Obtener todos los datos disponibles de los silos en un entorno unificado y listo para el análisis: El equipo de datos está formado por cuatro personas (dos científicos de datos, un analista senior y un analista de datos), pero amplían su alcance aprovechando su centro de datos de excelencia, lo que significa que trabajan con analistas integrados en todas las líneas de negocio para escalar sus esfuerzos. Sin embargo, esto requiere una manera fácil de permitir que esos equipos aprovechen los datos para responder preguntas comerciales que no necesariamente involucran código.
- Ampliar el despliegue de IA de manera rastreable, transparente y colaborativa: Los primeros modelos de aprendizaje automático de MandM se escribieron en archivos Python (.py) y se ejecutan en la máquina local del científico de datos, y necesitaban una forma de evitar interrupciones o fallas en las implementaciones de aprendizaje automático.
En un intento por enfrentar el segundo desafío, el equipo trasladó estos archivos .py a Google Cloud Platform (GCP), y el resultado fue bien recibido por los equipos técnicos y de negocios de la organización. Sin embargo, una vez que el número de modelos en producción pasó de uno a tres y más, el equipo se dio cuenta rápidamente de la carga involucrada en el mantenimiento de modelos.
Había demasiados conjuntos de datos desconectados y archivos de Python ejecutándose en la máquina virtual, y el equipo no tenía forma de verificar o detener la tubería de aprendizaje automático.
Necesitaban una soliución
“Tener una plataforma como Dataiku permite a nuestros científicos de datos centrarse en construir cosas geniales, no pasar horas y horas en mantenimiento y asegurarse de que las cosas estén funcionando. Con los flujos de trabajo implementados en Dataiku, ahorramos literalmente días de trabajo cada mes.”
Ben PowisJefe de Ciencia de Datos en MandM Direct.
La solución: Dataiku + GCP
MandM recurrió a la poderosa combinación de Dataiku y GCP para responder a sus dos desafíos críticos pero únicos. Con el almacén de datos completamente administrado y sin servidor de Google BigQueryerys, MandM podría romper los silos de datos y democratizar el acceso a los datos entre los equipos. MandM Direct fue uno de los primeros minoristas en línea en implementar Google BigQuery en toda la organización.
Al mismo tiempo, gracias a la interfaz visual y colaborativa de Dataiku para la canalización de datos, la preparación de datos, la capacitación de modelos y los MLOps, MandM también podría escalar fácilmente sus modelos en producción sin fallas o interrupciones de una manera transparente y rastreable.
MandM ahora tiene cientos de modelos en vivo, todos con visibilidad de las métricas de rendimiento del modelo, separación clara de los entornos de diseño y producción, y muchas más capacidades MLOps integradas en la plataforma.
Los equipos ahora pueden empujar y descargar fácilmente los cálculos tanto para la preparación de datos como para el aprendizaje automático a GCP. El uso de Dataiku significa que esta capacidad es accesible para todos los perfiles de usuario en MandM, sin conocer las tecnologías subyacentes o la complejidad.
Resultados, impacto y lo que sigue
Los beneficios que MandM ha visto al usar Dataiku y GCP no se limitan al tiempo ahorrado de trabajos de mantenimiento tediosos , sino que también tienen más impacto en todo el negocio. El equipo de datos ahora puede ofrecer una variedad de soluciones comerciales sobre problemas comerciales, desde adtech hasta el valor de por vida del cliente, ya sea un panel de control, un análisis más detallado o un proyecto de aprendizaje automático desplegado en producción.
“Amamos a Dataiku. Tenemos una combinación de personas que se dirigen más a AutoML y herramientas visuales, así como a un científico de datos que le encanta trabajar en código. Pero esa es la belleza de Dataiku y por qué lo elegimos; no queríamos una herramienta de código bajo donde pudiéramos ser perezosos y simplemente hacer clic en algunos botones. Ahora el equipo tiene la flexibilidad: si quieren salir y pasar por debajo del capó, pueden hacerlo, si necesitan un modelo rápido, también pueden hacerlo.”
— Ben Powis, Jefe de Ciencia de Datos en MandM Direct
Por ejemplo, una aplicación podría ser usuarios comerciales en los equipos de compra y comercialización, que podrían interactuar con modelos de aprendizaje automático en su trabajo diario a través de aplicaciones Dataiku, que proporcionan una interfaz no técnica para proyectos desarrollados por el equipo de datos.
El equipo también está particularmente orgulloso del trabajo que han realizado para construir una biblioteca de características con Dataiku que contiene más de 400 características específicas para el negocio de MandMm. Ahora, la biblioteca de características es el primer lugar al que va la gente, algo así como un escaparate para proyectos de aprendizaje automático donde se elimina la monotonía y la repetición de su trabajo.
Trabaje con datos claros y disponibles para cada decisión.
Nuestro equipo les acompaña con entusiasmo, para acercarles al futuro que desean.
