Wed. Sep 28th, 2022

Una guía práctica para desarrollar capacidades críticas de MLOps que maximicen el ROI de la ciencia de datos

Foto de Ramón Salinero en UnsplashTengo la suerte de trabajar con algunas de las empresas globales más sofisticadas en sus iniciativas de IA/ML. Estas empresas incluyen muchos nombres familiares en Fortune 500 y provienen de industrias tan diversas como la de seguros, farmacéutica y manufacturera. Cada uno tiene de docenas a literalmente miles de científicos de datos en su nómina. Si bien tienen inversiones significativas en IA y ML, exhiben una variedad sorprendentemente amplia de madurez en lo que respecta a MLOps. En esta publicación, me tomo un momento para ver lo que aprendí al trabajar con estas empresas y comparto temas comunes que surgen de sus viajes de MLOps. Mi objetivo al hacer esto es proporcionar un marco mediante el cual los ejecutivos y líderes puedan medir el progreso de su viaje hacia la excelencia en IA. En mi experiencia, la definición de MLOps depende de la audiencia. Para un profesional técnico, diría: “MLOps es la automatización de las tareas de DevOps específicas del ciclo de vida de la ciencia de datos”. Para un ejecutivo preocupado por la escala en todas las organizaciones, primero usaría el término Enterprise MLOps y luego diría: “Enterprise MLOps es un conjunto de tecnologías y mejores prácticas que agilizan la gestión, el desarrollo, la implementación y el mantenimiento de modelos de ciencia de datos. a escala en una empresa diversa”. De esta manera, MLOps acelera lo que algunos líderes llaman “velocidad del modelo”, que es la velocidad a la que una empresa puede producir modelos al tiempo que garantiza los más altos estándares de seguridad, protección y precisión del modelo. temas comunes al observar las capacidades técnicas de MLOps adoptadas por estas empresas. Se dividen naturalmente en grupos y exhiben una progresión hacia una madurez avanzada. Usaré una curva de madurez para ayudar a guiar la discusión de estos conceptos. A lo largo del eje x habrá varios grupos de capacidades de MLOps. A lo largo del eje y estará el valor comercial que las empresas obtienen de cada grupo. Las organizaciones más maduras priorizan agregar nuevas capacidades de MLOps en función de una evaluación bien fundamentada del valor comercial. Su estrella polar es optimizar el ROI de toda su inversión en ML/IA. Para agregar textura a cada declaración de valor, compartiré citas directas de líderes analíticos. Es interesante escucharlos poner en palabras el valor que ven con la adopción de las capacidades de MLOps.Imagen de autorEl acceso a los datos, el acceso a las herramientas y los IDE que los científicos de datos usan a diario y el acceso al hardware se encuentran en el primer grupo de capacidades. Para escalar la investigación en ciencia de datos, el entorno de software debe basarse en tecnologías de contenedores como Docker. Y cada uno de estos componentes debe ser de autoservicio de una manera que no involucre mucho a TI. Si un científico de datos tiene que completar un ticket, enviar un correo electrónico o jugar al administrador de Linux para obtener acceso a algo de esto, estamos equivocados. El valor comercial que proviene de esta combinación de capacidades es una investigación acelerada o una activación más rápida de los datos. en percepciones. Después de lograr el éxito en esta etapa inicial de MLOps, un líder de TI lo expresó de esta manera.

“Anteriormente, podía llevar de dos a tres semanas comprender y poner en marcha una infraestructura y luego comenzar el trabajo. Eso pasó de semanas a solo hacer clic en un botón.”— Director de Plataformas de Datos, Productos Farmacéuticos

Imagen por autorEn el siguiente grupo de capacidades comúnmente adoptadas, podemos programar trabajos, administrar los detalles de los experimentos y tener algún tipo de flujo de implementación automatizado, como una canalización de CI/CD. Esto permite la implementación eficiente de informes, aplicaciones, modelos y otros activos. Un líder analítico dio color a cómo podría verse cuando haya llegado a esta etapa de madurez.

“Cuando construimos modelos, podemos publicar una aplicación ahora… Cualquiera en mi equipo puede hacerlo en menos de una semana, y algunos pueden hacerlo en un par de horas”.— Director sénior de Ciencias de la Decisión, Servicios de Software

Imagen de autorEn la siguiente etapa de madurez, las empresas generalmente buscan construir una pila que permita la creación de soluciones analíticas modernas y complejas. Este aumento en la complejidad proviene de tamaños de datos mucho más grandes (marcos distribuidos), interrelaciones en los datos (canales y servicio de funciones) y soluciones sofisticadas similares a la IA (redes profundas). Además, vamos más allá del alojamiento básico de modelos y consideramos el alojamiento a escala y modelos con mecanismos de inferencia más complicados. Lograr este nivel de madurez de MLOps representa un hito importante de dos maneras importantes. En primer lugar, las organizaciones que pueden construir a este nivel pueden escalar soluciones de IA avanzadas mucho más rápido que sus competidores. Estas organizaciones son los disruptores que están empujando a sus industrias a desafiar las viejas normas y crear nuevas fuentes de ingresos. Por ejemplo, las compañías de seguros están reconsiderando cómo la IA puede cambiar el proceso de reclamos para los clientes, y las farmacéuticas están conectando la IA con marcadores biológicos para personalizar el tratamiento de los pacientes. En segundo lugar, las empresas en esta etapa de madurez de MLOps pueden atraer y retener a los mejores talentos analíticos, un punto importante en el competitivo mercado de talentos actual. Estos dos beneficios se capturan en las siguientes citas.

“Ciertamente estamos implementando modelos más precisos o incluso modelos que no podríamos haber hecho antes con flujos de trabajo más complicados”.— Consultor principal, FinServ“Si no hubiéramos invertido en [MLOps] En primer lugar, no habría podido formar un equipo en absoluto, porque no se puede contratar a un científico de datos altamente calificado sin brindarle un entorno de trabajo de última generación”.— CAO, Seguros

Imagen del autor Hay una capacidad más que agregar antes de que lleguemos a un punto de inflexión en el valor proveniente de la inversión en MLOps. La mayoría de las empresas hoy en día entienden la importancia de monitorear sus modelos de producción para proporcionar una red de seguridad contra el riesgo de modelo. Como dijo un líder,

“La deriva de datos puede tener un impacto crítico en las predicciones y, en última instancia, en nuestro negocio”.— Jefe de Aprendizaje automático, Seguros

Las empresas que están alcanzando sus objetivos estratégicos de IA no implementan estos cuatro grupos de capacidades de forma aislada. Los consideran parte de un marco de TI unificado. Para estas empresas, sus funciones de MLOps siguen una estrategia coherente que da como resultado algo que TI puede administrar sin los actos heroicos habituales. Además, prestan mucha atención a la personalidad del científico de datos. Ven al científico de datos como su cliente. Esto puede incluir analistas estadísticos, cuantificadores, actuarios, programadores clínicos, etc. La idea es que, en lugar de tomar fragmentos de diferentes tecnologías de MLOps de código abierto, lo coloquen todo bajo un paraguas o plataforma que une estas capacidades en función de un primer conjunto de principios de ciencia de datos. Esta primera forma de pensar de la ciencia de datos se manifiesta de varias maneras sutiles pero importantes, desde la forma en que se rastrean los metadatos hasta la forma en que se automatiza el reentrenamiento del modelo. .Imagen del autor El primer grupo de capacidades más allá del punto de inflexión toma la idea de los contenedores y la convierte en un sistema de administración de contenedores de ciencia de datos diseñado específicamente para la forma en que los científicos de datos trabajan y colaboran. Esto incluye administrar, compartir y crear versiones. También facilita que los científicos de datos modifiquen y construyan contenedores. Además, incluye una base de conocimientos de búsqueda donde todos los metadatos del trabajo se pueden etiquetar, almacenar e indexar para su descubrimiento y fácil colaboración, lo que resulta en menos pérdida de tiempo y una incorporación más rápida al proyecto. Este grupo también incluye un motor de reproducibilidad, donde el rastro de migas de pan de su trabajo está justo frente a usted, es fácil validar el linaje del modelo para auditores y reguladores, y el trabajo anterior se recrea con solo hacer clic en un botón. También incluí un modelo de registro en este grupo. Tener un repositorio central donde todos los modelos se capturan y administran en un solo lugar es la base de la gestión de riesgos y el gobierno de modelos. La mayoría de las empresas más grandes con las que trabajo tienen equipos de ciencia de datos en sus líneas de negocios, departamentos de TI, organizaciones de operaciones, investigación equipos y centros de excelencia centralizados. La estandarización de las mejores prácticas de MLOps en esta diversidad de equipos genera una colaboración sólida que permite escalar. Hablando sobre este valor, un líder señaló que,

“[Mature MLOps enables] reproducibilidad y descubrimiento. La verdadera aceleración del conocimiento, sin embargo, ocurre por el descubrimiento de la investigación de otros en la plataforma. Con una simple búsqueda de palabras clave, un científico puede encontrar otras investigaciones relevantes o expertos en la materia”.— Director sénior, Ingeniería y ciencia de datos, Ciencias de la vida

Imagen del autorDespués de dar este salto en valor al enfocarse en un enfoque unificado, de mejores prácticas y centrado en la ciencia de datos para MLOps, las organizaciones más avanzadas cierran el círculo sobre el riesgo y la salud del modelo. Lo hacen con un monitoreo que está integrado con los datos y las capacidades de investigación adoptadas anteriormente. Cuando un modelo falla o cuando los datos se desvían, las alertas automáticas activan el trabajo de remediación. La validación del modelo también está integrada, proporcionando los controles internos que exige una empresa o un marco regulatorio. Esto podría incluir comprobaciones de sesgo, revisiones de código de pares, creación de tarjetas modelo o análisis de explicabilidad. La clave es que cualquier persona que observe un modelo pueda comprender cómo se mitigó el riesgo y ver cómo se creó el modelo. Esto optimiza la salud del modelo y evita el riesgo.

“[Integrated] el monitoreo de modelos nos ahorra un tiempo significativo que antes invertíamos en mantenimiento e investigación, y nos permite monitorear el rendimiento del modelo en tiempo real y compararlo con nuestras expectativas”.— Jefe de Aprendizaje automático, Seguros

Imagen de AuthorEste último grupo de capacidades pone un arco en la idea de centralizar las funciones de MLOps. Es aquí donde los líderes finalmente tienen un programa de IA que actúa como una máquina, bombeando un flujo confiable de modelos rentables que generan ROI mientras mantienen todos los datos y la propiedad intelectual seguros. El primero de estos conceptos es la gestión de proyectos. El flujo de trabajo debe construirse de acuerdo con la forma en que los científicos de datos hacen su trabajo para que su investigación pueda realizarse de manera fluida y colaborativa. Los proyectos fluyen a través de etapas familiares y tienen puntos de control lógicos. El proyecto se convierte en el sistema de registro para el trabajo de ciencia de datos. Todo esto debe ocurrir en una plataforma centralizada para que TI pueda garantizar la seguridad, administrar usuarios y monitorear costos. Los colaboradores, líderes, expertos en la materia, validadores, ingenieros de datos, desarrolladores de la nube y analistas pueden unirse al trabajo del proyecto y dejar que la plataforma gestione los problemas de seguridad. Con estas estructuras implementadas, sus equipos de ciencia de datos se convierten en máquinas generadoras de ingresos. Incluso he visto empresas que tienen objetivos de ingresos para sus equipos de ciencia de datos.

“[Our] La plataforma es el núcleo de nuestro moderno entorno de ciencia de datos que ha ayudado a maximizar la eficiencia, la productividad y el rendimiento de nuestros equipos de ciencia de datos, ayudándonos a impulsar la innovación en apoyo de la misión de nuestros clientes”. Director y director de datos y análisis, Fabricación

Considere su propio viaje de MLOps y evalúe dónde se encuentra en la curva de madurez. Haga planes para llenar los vacíos en su estrategia. Tenga en cuenta que la clave para ir más allá del punto de inflexión en valor es integrar estrechamente todas las capacidades de una manera centrada en la ciencia de datos. Se requiere previsión y planificación; de lo contrario, terminará con una mezcolanza de características y capacidades que inhiben la escala en lugar de acelerarla. Las empresas que hagan esto bien verán un fuerte retorno de su inversión en AI/ML.