Saltar al contenido

    Cómo hacer que sus proyectos de inteligencia artificial sean exitosos: ideas de NVIDIA

    IA en bancos: conclusiones clave de MIT Technology Review, Mastercard y RBC

    Empresas como Phizer, The Walt Disney Company, Mercado Libre y Nvidia, han adquirido grandes conocimientos y experiencias en este nuevo mundo del análisis de alto nivel con inteligencia artificial. En Excibit consideramos que conocer sobre sus proyectos y como manejan las iniciativas de datos puede ser de provecho para toda compañía interesada en iniciar este viaje de innovación, por ello, traemos a ustedes un artículo publicado por Dataiku (traducido al español), que muestra el diálogo con el arquitecto de soluciones de Nvidia, sobre los éxitos y desafíos en sus proyectos de datos e inteligencia artificial.

    Esta publicación de blog incluye una selección de nuestras respuestas favoritas de esa conversación.

    En una reciente charla amena sobre la comprensión de la analítica y los éxitos y desafíos de los proyectos de IA, tuvimos la compañía de Will Benton, arquitecto principal de productos en NVIDIA, para profundizar en cómo las organizaciones pueden entender claramente los puntos más comunes de falla en sus proyectos de IA, dónde se desvían del camino y cómo prevenir que esto suceda en el futuro.  

    Replanteando el "Fracaso" del Proyecto

    Catie Grasso: Me encantaría saber qué escuchas con más frecuencia de los líderes a los que hablas sobre las principales razones por las que sus proyectos de IA fracasan.

    Will Benton: Sí, esa es una gran pregunta. Pero creo que es una gran pregunta por dos razones. Y una razón es que creo que nosotros, como industria, deberíamos tener mucho cuidado con la forma en que hablamos sobre la ciencia de datos y el fracaso de los proyectos de IA.
    El fracaso es una parte necesaria para explorar lo desconocido. En general, es absolutamente parte de hacer buena ciencia, hacer desarrollo avanzado, y siento que muchas veces en la industria decimos cosas como “el 85% de los proyectos de ciencia de datos nunca llegan a producción” y lo presentamos como si fuera un defecto fundamental en la forma en que hacemos ciencia de datos.

    Ahora, cuando hacemos eso, siento que podemos crear las expectativas equivocadas para los profesionales y casi eliminar esa seguridad psicológica que las personas necesitan para explorar cosas realmente innovadoras que conducirán a un mayor valor comercial y mayores avances. Por analogía, no creo que debamos de decir que algo anda mal con el descubrimiento de fármacos porque el 99.99% de los compuestos nunca llegan a un ensayo clínico. Simplemente diríamos que aprendimos muchas cosas y, idealmente, estamos beneficiándonos de eso. Entonces, creo que es importante centrarse en cómo ayudar a los profesionales a iterar lo más rápido posible para que puedan llegar rápidamente a ese punto de fracaso o éxito potencial. Y luego, si un proyecto ha fracasado, ¿Qué aprendimos de él? ¿Aprendimos algo? ¿Lo hicimos de manera lo suficientemente disciplinada como para aprender algo sobre el mundo o sobre esta técnica de modelado o lo que sea? Y luego, cuando llegamos a la producción, que sospecho es la pregunta que realmente querías hacer, ¿podemos llegar allí sin obstáculos?

    ¿Qué impide que los equipos lleguen a producción?

    Will Benton: En lo que respecta a los tipos de fracasos que vemos y que nos impiden pasar de un experimento exitoso a un sistema de producción exitoso, creo que una gran parte del problema es que este proceso de desarrollo y producción a menudo implica mucho trabajo manual.

    Un equipo de ciencia de datos lanza algo a otro equipo que tiene que entenderlo y volver a implementarlo, a menudo en un lenguaje o marco diferente, a menudo bajo restricciones muy diferentes. El equipo de ciencia de datos está relativamente sin restricciones.

    Tienen la flexibilidad de elegir la mejor herramienta para el trabajo. El equipo de desarrollo empresarial que lo implementa en un sistema de producción tiene que lidiar con eso. Tienen que lidiar con auditorías, con seguridad y con cosas como la autenticación única. Entonces, creo que esta discrepancia entre la forma en que trabajan los científicos de datos y la forma en que trabajan los desarrolladores empresariales es realmente una gran parte del problema. Es una de las causas sociales de este problema.

    Un ejemplo realmente extremo que vi mientras ayudaba a un cliente en un rol anterior fue alguien que estaba tratando de llevar un canal de aprendizaje automático a la producción. Y este científico de datos simplemente ejecutaba todos los proyectos en los que trabajaba desde un solo entorno virtual de Python. Y a lo largo de los años, este entorno simplemente acumuló paquetes como percebes en un barco.

    Había alrededor de 700 paquetes de Python en este entorno. Y, ya sabes, para poner la aplicación en producción, tuvimos que decir, bueno, no solo cómo podemos volver a implementar esto de manera sensata, sino cómo podemos pasar esto por una auditoría de seguridad de TI. Lo que significaba revisar y decir, “¿Cuáles de estos paquetes son realmente necesarios?”

    Creo que durante mucho tiempo ha sido popular sugerir que los científicos de datos simplemente necesitan tener más disciplina de ingeniería. Solo necesitan ser más parecidos a los desarrolladores empresariales o a los ingenieros de software. Y creo que hay mucha energía de la industria y de las comunidades de código abierto invertida en crear estas herramientas que asumen que lo que falta en la vida de un científico de datos es editar archivos YAML o construir contenedores o hacer algún tipo de trabajo de DevOps para que su trabajo sea más reproducible. Y no creo que muchos científicos de datos quieran preocuparse por eso. Hay muchos lugares donde más disciplina de ingeniería hará que tu vida sea más fácil como científico de datos que trabaja con tu control de origen y escribiendo pruebas y ese tipo de cosas.
    Pero, a fin de cuentas, los científicos de datos no quieren ser ingenieros de lanzamientos, no quieren pensar en Kubernetes o contenedores o en cualquiera de estas otras cosas; ese es el trabajo de otra persona, y solo se interpone en el camino de lo que quieres hacer como científico de datos.

    Así que creo que necesitamos tener herramientas para los científicos de datos que los encuentren donde están y permitan hacer un buen trabajo reproducible sin imponer un nuevo estilo de trabajo en ellos.

    ¿Y qué pasa con el lado empresarial?

    Catie Grasso: ¿Observas algo que sea el punto de falla más frecuente para los elementos empresariales de un proyecto?

    Will Benton: Creo que realmente no se trata tanto de que el proyecto falle como del fracaso del programa en general en muchos casos. Uno de los desafíos ha sido que comenzamos a resolver un conjunto determinado de métricas y las resolvimos, pero resultó que no eran las métricas correctas. Y a veces tienes este tipo de desafío de comunicación entre las partes interesadas y los científicos de datos.

    Ahora, a veces esto toma la forma de que los científicos de datos dicen: “Mejoré mi AUC y, por lo tanto, hice mi trabajo correctamente” en lugar de “logré el resultado comercial correcto”. Creo que incluso para los científicos de datos senior que entienden el negocio, a menudo es un desafío y a menudo lo que quieren las partes interesadas cambia con el tiempo.

    Y no siempre es fácil decir: “¡Ey, toma lo que aprendiste al resolver este problema y úsalo para resolver un problema relacionado!”. A veces funciona, pero a veces no. Entonces, creo que esta cuestión de establecer las métricas correctas e identificar expectativas realistas sobre lo que se puede hacer y lo que se quiere lograr con la IA es muy importante para un proyecto exitoso.

    El papel de TI en la IA exitosa


    Catie Grasso: ¿Qué papel desempeñan los líderes de TI en el éxito de un proyecto de análisis e IA? A menudo no obtienen tanto crédito por el papel activo que podrían desempeñar, incluso si está un poco detrás de escena.

    Will Benton: Es muy importante pensar en el tipo de interacción entre los equipos de TI y ciencia de datos, porque ambos abordan estos problemas desde perspectivas diferentes. Ambos tienen diferentes incentivos y objetivos, y creo que solo obtenemos los mejores resultados cuando pensamos en ambos participantes.

    Entonces, con TI, su principal preocupación es el control. Su principal preocupación es asegurarse de que su alarma no suene en medio de la noche. Asegurarse de que nadie pierda datos, asegurarse de que nadie sea demandado. Con los equipos de ciencia de datos, su enfoque es más innovación. Es flexibilidad. Es preguntar, “¿Puedo probar esta última técnica, puedo usar esta última biblioteca? ¿Puedo trabajar de la manera en que me siento más cómodo?”

    Y creo que donde se encuentran estos equipos es que hay mucho valor en el aspecto de gobernanza. Si piensas en los tipos de procesos por los que tienes que pasar, obviamente con los sistemas de aprendizaje automático, especialmente aquellos que manejan información personal identificable, puedes tener resultados realmente desastrosos con una explotación de seguridad.

    Y este es un beneficio obvio de tener supervisión sobre los sistemas de aprendizaje automático. Es menos probable que sufras esos errores de seguridad que si simplemente estás tomando lo que un científico de datos arrojó por encima de la valla.

    Sin embargo, Otra ventaja tiene que ver con los conjuntos de datos, que creo que en realidad es un área en la que no mucha gente está pensando lo suficiente. Muchas veces, los científicos de datos, si necesitan aumentar los datos que tienen, descargan un conjunto de datos de acceso público. Pero muchas veces esos conjuntos de datos vienen con restricciones de uso y realmente necesitas el apoyo legal y de TI para analizar esto y decir, “¿Podemos construir un producto basado en esto? ¿Podemos poner en producción algo que aprendimos de este conjunto de datos, dadas las condiciones en que se distribuye?”

    Y muchas veces, algo que puedes descargar gratis de internet no es realmente libre para usar como quieras. Entonces, creo que esa supervisión en los conjuntos de datos es muy importante.

    ¿Cómo encaja MLOps en todo esto?

    Will Benton: Mucha gente ha tratado de definir MLOps de muchas maneras diferentes. La definición a la que sigo volviendo es que son los procesos, la cultura y las herramientas que hacen posible hacer un trabajo responsable y repetible para construir sistemas de aprendizaje automático. Siento que, como industria, nos hemos distraído un poco con los modelos de aprendizaje automático.

    Mucha gente ha hablado de esto, pero los modelos son emocionantes. Sabes, los modelos tienen nombres, los modelos son celebridades. Pero el sistema que rodea al modelo es tan complicado como cualquier otro sistema de software, excepto que tienes esta cosa opaca y complicada en el medio que toma decisiones sin explicarlas. Entonces, creo que no puedes obligar a las personas a hacer lo correcto o lo más responsable cuando están haciendo sus trabajos como profesionales creativos. Pero lo que puedes hacer es crear una cultura de procesos que sean fáciles de seguir y que probablemente produzcan mejores resultados. Y puedes crear herramientas que faciliten hacer lo correcto en lugar de lo incorrecto.

    Y creo que ahí es donde entra MLOps. No puedes prevenir cualquier fallo o cualquier error, pero puedes crear un sistema sólido y utilizar prácticas que probablemente lleven a un sistema sólido.

    ¿Cómo encaja MLOps en todo esto?

    Will Benton: Mucha gente ha tratado de definir MLOps de muchas maneras diferentes. La definición a la que sigo volviendo es que son los procesos, la cultura y las herramientas que hacen posible hacer un trabajo responsable y repetible para construir sistemas de aprendizaje automático. Siento que, como industria, nos hemos distraído un poco con los modelos de aprendizaje automático.

    Mucha gente ha hablado de esto, pero los modelos son emocionantes. Sabes, los modelos tienen nombres, los modelos son celebridades. Pero el sistema que rodea al modelo es tan complicado como cualquier otro sistema de software, excepto que tienes esta cosa opaca y complicada en el medio que toma decisiones sin explicarlas. Entonces, creo que no puedes obligar a las personas a hacer lo correcto o lo más responsable cuando están haciendo sus trabajos como profesionales creativos. Pero lo que puedes hacer es crear una cultura de procesos que sean fáciles de seguir y que probablemente produzcan mejores resultados. Y puedes crear herramientas que faciliten hacer lo correcto en lugar de lo incorrecto.

    Y creo que ahí es donde entra MLOps. No puedes prevenir cualquier fallo o cualquier error, pero puedes crear un sistema sólido y utilizar prácticas que probablemente lleven a un sistema sólido.

    El valor de una plataforma adaptativa, flexible y aprueba del futuro para IA

    Catie Grasso: ¿Cómo puede una plataforma adaptable y flexible ayudar a las organizaciones a operacionalizar estos proyectos para impulsar un verdadero impacto empresarial? ¿Qué valor ves en Dataiku para esto?

    Will Benton: Algunos de los desafíos de los que hemos estado hablando son hacer que sea más fácil para los profesionales hacer su mejor trabajo, hacer que sea más fácil para los profesionales hacer un trabajo responsable y repetible y compartir su trabajo, ya sea con equipos de desarrollo u otros científicos de datos, y tener todo esto de una manera que el departamento de TI esté dispuesto a manejar.

    Entonces, creo que la gran ventaja de la plataforma Dataiku es que realmente brinda a los equipos de ciencia de datos esa flexibilidad, esa gestión sencilla para las organizaciones de TI, por lo que tienes esta combinación de flexibilidad y poder.

    En cuanto a los beneficios para los profesionales, algunas de las cosas que más me impresionan de Dataiku son la gestión de proyectos y entornos. Entonces, es más fácil decir: “Ahora estoy trabajando en este proyecto. Tengo estas bibliotecas, tengo estos datos en un solo lugar”. Realmente me gusta ese resumen rápido de un conjunto de datos para poder ver si hay valores atípicos, si podemos entender este conjunto de datos que está desordenado o sin etiquetar, lo cual obviamente es un gran problema en las etapas iniciales de cualquier proyecto.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Trabaje con datos claros y disponibles para cada decisión.

    Nuestro equipo les acompaña con entusiasmo, para acercarles al futuro que desean.

    andersen_consulting_popup_logo

    Nos enorgullece anunciar que Excibit de Centroamérica es ahora miembro de Andersen Consulting

    El registro para el evento ha terminado

    Déjenos su información para que le incluyamos en próximas invitaciones