Wed. Sep 28th, 2022

Por qué mi primer trabajo en ciencia de datos no fue lo que esperaba

Foto de Andre Taissin en UnsplashCamisa nueva, zapatos nuevos. Estaba listo para mi primer trabajo en uno de los bancos más grandes de Irlanda. Yo estaba emocionado. Mirando hacia atrás, tenía buenas razones para estarlo. Pude trabajar en proyectos impactantes y aprendí muchísimo. De hecho, la lección más importante fue:La ciencia de datos no fue lo que esperaba.Esperaba trabajar en la vanguardia de la informática, las estadísticas y el aprendizaje automático. Aplicar nuevos métodos para generar conocimientos únicos. Automatizando todo. En resumen, fui víctima de la exageración en torno a la profesión. Entonces, quiero compartir mis lecciones contigo. Espero que podamos superar la exageración y mejorar su comprensión de lo que hace un científico de datos. Profundicemos en la primera lección. Mi trabajo consistía en crear modelos de riesgo de crédito y fraude. Estos fueron modelos impactantes. Se utilizaron para automatizar préstamos a gran escala. Estoy hablando de aplicaciones que valen la pena miles de millones de euros un año. Puede pensar que, con tanto en juego, estaría haciendo aprendizaje automático avanzado. Estaría equivocado. Construyo modelos exclusivamente usando regresión logística. No estoy solo. Desde la banca hasta los seguros, gran parte del mundo financiero funciona en regresión. ¿Por qué?Porque estos modelos funcionan.El rendimiento de los modelos de regresión fue lo suficientemente bueno. También son ampliamente entendidos y aceptados en el banco. Para adoptar un nuevo algoritmo, no solo tenía que superar a la regresión. La mejora también tenía que justificar el esfuerzo de explicar el algoritmo. Con la regresión, terminé con modelos que tenían de 8 a 10 características. Cada una de estas características tuvo que ser explicada a fondo. Un colega no técnico tuvo que estar de acuerdo en que capturaron una relación que existía en la realidad. Con la regresión esto fue simple. Los modelos de caja negra habrían sido más difíciles de explicar. Claro, podría haber usado métodos como SHAP o PDP y ICE Plots. El problema es que no me darían el mismo nivel de certeza. También habría tenido que explicar el método que usé para explicar mi modelo. Esto fue una fuente de decepción. Al salir de la universidad, había aprendido mucho sobre bosques aleatorios, XGBoost y redes neuronales. Estaba emocionado de aplicar estas técnicas. En la primera semana, recuerdo que uno de mis colegas senior dijo:

“Folvídate de todos esos modelos elegantes”

Ella tenía razón. Muchos científicos de datos nunca los necesitarán. Menos decepcionante fue darse cuenta de lo útil que es el aprendizaje automático. Me di cuenta cuando vi todas las aplicaciones solo en la industria bancaria. Por nombrar algunos: Riesgo crediticio: prediga el incumplimiento debido a dificultades financieras Fraude: prediga si los clientes no tienen la intención de pagar un préstamo Áreas previas: identifique a los clientes con dificultades financieras Deserción: identifique a los clientes que tienen la intención de abandonar el banco Marketing: identifique a los mejores clientes para promover una producto a Estos modelos se utilizaron para automatizar procesos en todo el banco. Trabajar en ellos me emocionó. Me dio la oportunidad de crear algo que podría impactar al mundo más de lo que podría haber hecho solo. Esto me dio mucha motivación. Motivación muy necesaria. Construir modelos en la universidad fue pan comido: conjuntos de datos limpios, funciones prediseñadas y ajuste automatizado de hiperparámetros. Me tomó un par de horas obtener una precisión del 99,9%. Imagine mi sorpresa cuando un equipo de 3 de nosotros tomó 8 meses para construir un modelo de riesgo crediticio. ¡8 meses! La mayor parte de este tiempo se dedicó a construir nuestro conjunto de datos. Esto no solo incluye las características del modelo. Tuve que justificar todas mis decisiones de modelado. Para hacerlo, incluí todas las variables necesarias para el análisis de muestreo y representación, el análisis de segmentación, el análisis de equidad y la evaluación del modelo. Tuve que construir muchas de estas variables desde cero. Los campos de datos subyacentes se distribuyeron en varias tablas con documentación inconsistente (si la había). Una vez construido vino la depuración. Oh, la depuración. Todavía me dan escalofríos al pensar en ello. Si se cometen errores (los hubo), causarían mucho dolor en el futuro (los cometieron). Para minimizar esto, se realizaron muchas pruebas. El problema era que no había nada con lo que comparar las características de mi modelo. Lo mejor que pude hacer fue: Comprobación de sentido. Esto implica visualizar tendencias de características y validarlas con conocimiento del dominio. ¿Tiene sentido una caída repentina de los ingresos? Sí, pruebas Covid.Unit. Eso significa calcular manualmente los valores de las características para algunos clientes. No conocía este lado de la ciencia de datos. No fue el “trabajo más sexy de 2019” del que me hablaron. Fue aburrido. Sin embargo, valió la pena. Ver el modelo final me llenó de orgullo. era mi hijo Mi hijo que inmediatamente envié para sancionar miles de préstamos. Rápidamente me di cuenta de cuán críticas serían las habilidades no técnicas. La comunicación es clave. No hubo resúmenes de tareas ni preguntas de examen claramente redactadas. A veces, las tareas se describían de manera desordenada. No esperaba que parte de mi trabajo fuera comprender lo que se me pedía que hiciera.

Necesitaba mejorar tanto mis habilidades de comunicación como el conocimiento del dominio para aplicar de manera efectiva mis habilidades técnicas.

Esto se hizo más fácil a medida que ganaba más experiencia. Más específicamente, a medida que adquirí conocimiento de la industria bancaria. Al principio, ni siquiera sabía qué preguntas aclaratorias hacer. Había mucha jerga y TLA (siglas de tres letras). Una vez que comprendí este idioma, mi vida se volvió más fácil. La ciencia de datos es un trabajo candente. También es solo un título de trabajo. Se puede esperar que haga una variedad de tareas. Las empresas saben que las personas quieren ser científicos de datos y comercializarán sus puestos de manera adecuada. Comencé mi trabajo con un grupo de recién graduados. Tuve suerte. Terminé haciendo un trabajo que clasificaría como ciencia de datos. Algunos de mis compañeros graduados no tuvieron tanta suerte. Solo SQL y Excel. Realmente, deberían haber sido llamados analistas de datos. Mirando hacia atrás, una señal de advertencia fue que todos los seniors en el departamento tenían el título de “análisis cuantitativo”. Los nuevos jóvenes fueron todos llamados “científicos de datos”. ¿Había cambiado de repente el trabajo? No. Al entrar en mi próximo trabajo, me concentraría menos en el título del trabajo. Haría más preguntas sobre qué trabajo haría en el día a día. La siguiente lección me enseñó a preguntar también sobre las herramientas utilizadas para hacer este trabajo. Un sentimiento común es que debe centrarse en el proceso sobre las herramientas. Creo que esto proviene de científicos de datos que nunca han tenido que trabajar con tecnología obsoleta. Estoy de acuerdo en que el proceso es importante. Es igualmente importante tener acceso a las mejores herramientas para implementar esos procesos.Las herramientas viejas se están agotando. También abundan en la industria bancaria. Viniendo de la universidad, tenía experiencia con Python. Puede crear modelos complejos y visualizaciones interactivas con unas pocas líneas de código. En banca contamos con SAS. SAS puede hacer una fracción de lo que Python puede hacer con un múltiplo del esfuerzo. Lo encontré un poco desmoralizador. Sabía que podía hacer un mejor trabajo con herramientas de código abierto, pero no tenía forma de acceder a ellas. Trabajar con herramientas antiguas también hizo que mis habilidades fueran menos comercializables. La industria se mueve rápidamente. Me di cuenta de esto cuando comencé a solicitar nuevos trabajos. El 95% de las solicitudes de empleo en ciencia de datos mencionan herramientas como Python, Pytorch, TensorFlow, etc. Las empresas quieren personas que tengan experiencia con la última tecnología. Al final, todos los trabajos tienen sus inconvenientes. Estoy feliz con mi primera experiencia. Completé proyectos interesantes. Hice un trabajo que tuvo un impacto material en la economía irlandesa. Si tan solo tuviera acceso a mejores herramientas para hacer ese trabajo.