“Folvídate de todos esos modelos elegantes”
Ella tenía razón. Muchos científicos de datos nunca los necesitarán. Menos decepcionante fue darse cuenta de lo útil que es el aprendizaje automático. Me di cuenta cuando vi todas las aplicaciones solo en la industria bancaria. Por nombrar algunos: Riesgo crediticio: prediga el incumplimiento debido a dificultades financieras Fraude: prediga si los clientes no tienen la intención de pagar un préstamo Áreas previas: identifique a los clientes con dificultades financieras Deserción: identifique a los clientes que tienen la intención de abandonar el banco Marketing: identifique a los mejores clientes para promover una producto a Estos modelos se utilizaron para automatizar procesos en todo el banco. Trabajar en ellos me emocionó. Me dio la oportunidad de crear algo que podría impactar al mundo más de lo que podría haber hecho solo. Esto me dio mucha motivación. Motivación muy necesaria. Construir modelos en la universidad fue pan comido: conjuntos de datos limpios, funciones prediseñadas y ajuste automatizado de hiperparámetros. Me tomó un par de horas obtener una precisión del 99,9%. Imagine mi sorpresa cuando un equipo de 3 de nosotros tomó 8 meses para construir un modelo de riesgo crediticio. ¡8 meses! La mayor parte de este tiempo se dedicó a construir nuestro conjunto de datos. Esto no solo incluye las características del modelo. Tuve que justificar todas mis decisiones de modelado. Para hacerlo, incluí todas las variables necesarias para el análisis de muestreo y representación, el análisis de segmentación, el análisis de equidad y la evaluación del modelo. Tuve que construir muchas de estas variables desde cero. Los campos de datos subyacentes se distribuyeron en varias tablas con documentación inconsistente (si la había). Una vez construido vino la depuración. Oh, la depuración. Todavía me dan escalofríos al pensar en ello. Si se cometen errores (los hubo), causarían mucho dolor en el futuro (los cometieron). Para minimizar esto, se realizaron muchas pruebas. El problema era que no había nada con lo que comparar las características de mi modelo. Lo mejor que pude hacer fue: Comprobación de sentido. Esto implica visualizar tendencias de características y validarlas con conocimiento del dominio. ¿Tiene sentido una caída repentina de los ingresos? Sí, pruebas Covid.Unit. Eso significa calcular manualmente los valores de las características para algunos clientes. No conocía este lado de la ciencia de datos. No fue el “trabajo más sexy de 2019” del que me hablaron. Fue aburrido. Sin embargo, valió la pena. Ver el modelo final me llenó de orgullo. era mi hijo Mi hijo que inmediatamente envié para sancionar miles de préstamos. Rápidamente me di cuenta de cuán críticas serían las habilidades no técnicas. La comunicación es clave. No hubo resúmenes de tareas ni preguntas de examen claramente redactadas. A veces, las tareas se describían de manera desordenada. No esperaba que parte de mi trabajo fuera comprender lo que se me pedía que hiciera.
Necesitaba mejorar tanto mis habilidades de comunicación como el conocimiento del dominio para aplicar de manera efectiva mis habilidades técnicas.
Esto se hizo más fácil a medida que ganaba más experiencia. Más específicamente, a medida que adquirí conocimiento de la industria bancaria. Al principio, ni siquiera sabía qué preguntas aclaratorias hacer. Había mucha jerga y TLA (siglas de tres letras). Una vez que comprendí este idioma, mi vida se volvió más fácil. La ciencia de datos es un trabajo candente. También es solo un título de trabajo. Se puede esperar que haga una variedad de tareas. Las empresas saben que las personas quieren ser científicos de datos y comercializarán sus puestos de manera adecuada. Comencé mi trabajo con un grupo de recién graduados. Tuve suerte. Terminé haciendo un trabajo que clasificaría como ciencia de datos. Algunos de mis compañeros graduados no tuvieron tanta suerte. Solo SQL y Excel. Realmente, deberían haber sido llamados analistas de datos. Mirando hacia atrás, una señal de advertencia fue que todos los seniors en el departamento tenían el título de “análisis cuantitativo”. Los nuevos jóvenes fueron todos llamados “científicos de datos”. ¿Había cambiado de repente el trabajo? No. Al entrar en mi próximo trabajo, me concentraría menos en el título del trabajo. Haría más preguntas sobre qué trabajo haría en el día a día. La siguiente lección me enseñó a preguntar también sobre las herramientas utilizadas para hacer este trabajo. Un sentimiento común es que debe centrarse en el proceso sobre las herramientas. Creo que esto proviene de científicos de datos que nunca han tenido que trabajar con tecnología obsoleta. Estoy de acuerdo en que el proceso es importante. Es igualmente importante tener acceso a las mejores herramientas para implementar esos procesos.Las herramientas viejas se están agotando. También abundan en la industria bancaria. Viniendo de la universidad, tenía experiencia con Python. Puede crear modelos complejos y visualizaciones interactivas con unas pocas líneas de código. En banca contamos con SAS. SAS puede hacer una fracción de lo que Python puede hacer con un múltiplo del esfuerzo. Lo encontré un poco desmoralizador. Sabía que podía hacer un mejor trabajo con herramientas de código abierto, pero no tenía forma de acceder a ellas. Trabajar con herramientas antiguas también hizo que mis habilidades fueran menos comercializables. La industria se mueve rápidamente. Me di cuenta de esto cuando comencé a solicitar nuevos trabajos. El 95% de las solicitudes de empleo en ciencia de datos mencionan herramientas como Python, Pytorch, TensorFlow, etc. Las empresas quieren personas que tengan experiencia con la última tecnología. Al final, todos los trabajos tienen sus inconvenientes. Estoy feliz con mi primera experiencia. Completé proyectos interesantes. Hice un trabajo que tuvo un impacto material en la economía irlandesa. Si tan solo tuviera acceso a mejores herramientas para hacer ese trabajo.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…