El espacio de carreras de datos ha sido asquerosamente exagerado. No sobrevalorado (hay es increíble valor que se puede obtener de los datos), pero más como “mal publicitado”: muchas personas están generando rumores de datos por todas las razones equivocadas. Las razones correctas para estar entusiasmado se relacionan con el viejo adagio, el conocimiento es poder: el poder de mejorar su negocio, su trabajo, su vida personal y el mundo que le rodea. Con todas las mejoras tecnológicas en el almacenamiento y procesamiento de las materias primas del conocimiento, hay mucho potencial esperando ser desbloqueado. Eso vale varios camiones llenos de exageraciones. Pero espero que se unan a mí para decir no a la exageración: no equipare los datos con la magia. La basura no se convierte en oro, no importa cuántas matemáticas le eches. La fascinación de la industria por la alquimia de datos es tan vergonzosa como la fascinación del siglo XV por murmurar galimatías en latín sobre limaduras de hierro.
No equipare los datos con la magia.
Ojalá todos dejáramos de pronunciar data con ‘D’ mayúscula. Los datos no son mágicos: el hecho de que tenga una hoja de cálculo llena de números no garantiza que pueda obtener algo útil de ella. El principio GIGO se aplica con más fuerza que nunca.
GIGO: Basura entra, basura sale.
Los datos no son la verdad. Lejos de ahi. Ilustremos esto con un ejemplo. La imagen de abajo es un símbolo americano, la Campana de la Libertad. Tómese un momento para anotar la ciudad que alberga este objeto icónico antes de seguir leyendo.Imagen adaptada de Wikipedia por el autor. Ahora imagine que está trabajando en nombre de una organización de turismo y se le ha asignado la tarea de recopilar datos sobre los destinos de vacaciones más agradables en los Estados Unidos entre su población de usuarios. Creas una encuesta en línea en la que invitas a los usuarios a que te digan sus tres ciudades favoritas para el turismo a través de un campo de formulario abierto. ¿Qué podría salir mal?Captura de pantalla de Google Forms creada (con gran pesar ya que esta encuesta es tan terrible) por el autor. Más tarde, cuando miras las respuestas, notas algunas entradas para esa ciudad de Liberty Bell…Oh no.Nononononononono.¿Qué diablos extra es esto?¿Pholadelphia?Phi-load-elphia??Phpiladelphia???También podría deletrearlo Pffffftiladelphia en este punto, para todo el bien que estas entradas generadas por el usuario te harán. Pero seamos generosos con la humanidad y permítanos un momento de gratitud porque la respuesta correcta llegó a este auto de payaso. Pero, ¿cuál es la respuesta correcta? ¿Ésta?Claro, pero ¿y estos?Las cuatro son respuestas respetables… pero cuatro versiones diferentes de la misma entrada no es la idea de pasar un buen rato de una persona de datos que se precie. Esto no es póquer. Los casi duplicados no son su amigo si está buscando la señal más clara y limpia de sus datos. Además, el hecho de que las respuestas sean técnicamente correctas no significa que disfrutará lidiar con ellas. Por ejemplo, una coma, como la de Filadelfia, PA, podría romper su archivo CSV. ¿Por qué, oh por qué, dejaste que el usuario te hiciera esto? Esta situación es graciosa, pero también es triste. ¡Son ambos! Filasófico, de verdad. Pero lo más importante es que esta situación es evitable.En este ejemplo, los encuestados estaban realmente tratando de ayudar. Nadie quería meterse contigo. Le pediste a la gente que te dijera qué ciudades les gustaba visitar y lo hicieron lo mejor que pudieron. Si supieran deletrear correctamente, tal vez lo harían. No es que sus respuestas sean Mars o el nombre de su gato o algo así… Realmente están tratando de decirte que Filadelfia es una ciudad agradable. Cada una de estas entradas tiene la señal Filadelfia, pero no todas son iguales. Algunos de estos tienen mucha menos señal que otros. Está buscando la mayor cantidad de señal posible, pero si permite que las personas ingresen sus datos como lo deseen, gran parte de esa señal se perderá y tendrá que dedicar tiempo, energía y recursos a limpiarla para recuperar esa señal. . Mientras que si hubiera diseñado esta recopilación de datos inteligentemente en primer lugar, cada entrada de Filadelfia sería toda señal, sin ruido.Para otro ejemplo, he aquí una fotografía que tomé en Brooklyn Taco Factory. Este es un restaurante increíble con un extenso menú donde los clientes ordenan escribiendo lo que quieran en una tarjeta de notas. Aquí hay una pila de pedidos para que los procese el personal (mi pedido está en el medio). Los seres humanos son asombrosos porque pueden dar sentido a todos estos formatos diferentes, pero fíjate en cómo están por todas partes. Apuesto a que hay momentos en que incluso el personal empedernido de este lugar se confunde por algo que tenía sentido en la cabeza de un cliente. Hay otras formas de recopilar datos. Mejores formas. Sin embargo, aquí la comida es estelar. Si se les deja a su suerte, las personas encontrarán formas notables de frustrar sus intenciones de recopilación de datos. Y si deja el diseño de la recopilación de datos en manos de aquellos que no tienen las habilidades para anticipar y prevenir problemas, perderá tiempo y dinero desmantelando un conjunto de datos estropeado. (A veces, ninguna cantidad de esfuerzo funcionará y se arruinará para siempre). La limpieza de datos es un trabajo de santos, pero debería ser un trabajo de último recurso. Es mucho mejor planificar inteligentemente que esperar que pueda arreglar la mala planificación con una limpieza diligente.
Si se les deja a su suerte, las personas encontrarán formas notables de frustrar sus intenciones de recopilación de datos.
Lo que me lleva a mi punto principal. Las personas no son diseñadores de datos intuitivamente ordenados. Se necesita saber cómo diseñar la recopilación de datos para que sea más rápido y más fácil hacer que esos datos sean utilizables y útiles. ¿Recuerda cómo Internet parecía que todos los codificadores se imaginaban a sí mismos como diseñadores? Bruto. Bueno, así es aproximadamente como se ven los conjuntos de datos cuando nadie se toma el tiempo para adquirir algunas habilidades de diseño de datos. Si está interesado en hacer que los datos sean útiles, le recomiendo que se familiarice con estos dos temas: Estoy encantado de que algunos de los diseñadores de datos más apasionados que conozco han publicado recientemente un manual de capacitación sobre el tema del diseño de datos, el Libro de jugadas de tarjetas de datos. ¡Échale un vistazo si te tomas en serio los datos!Consíguelo aquí: bit.ly/datacardsplaybookRecuerda, los datos no te deben nada. Ni siquiera una calidad decente para sus problemas. Nunca hay una garantía de que sus datos no sean basura. Si tiene un pensamiento matemático dentro de su organización y cree que obtener los datos es la parte fácil, entonces se olvidará de contratar personas que sean realmente buenas para garantizar que esos datos no sean basura.
Ya es hora de que comencemos a valorar las habilidades involucradas en hacer buenos datos al menos tanto como las habilidades para hacer que los datos existentes sean útiles.
Hablando de Garbage In, Garbage Out, su autor entró en este lugar y salió exactamente igual. ¯\_(ツ)_/¯Si te divertiste aquí y buscas un curso completo de IA aplicada diseñado para ser divertido tanto para principiantes como para expertos, este es el que hice para tu diversión: Disfruta del curso en YouTube aquí .PS ¿Alguna vez ha intentado presionar el botón de aplausos aquí en Medium más de una vez para ver qué sucede? ❤️Estos son algunos de mis tutoriales favoritos de 10 minutos:Consíguelo aquí: bit.ly/datacardsplaybook (Imagen de Mahima Pushkarna, cocreador del libro de jugadas, usada con permiso) Aunque el sitio enfatiza la documentación de datos y la inteligencia artificial (tengo que captar ese espíritu de la época), el Libro de jugadas de tarjetas de datos es mucho más. Es el conjunto más fuerte de recursos de diseño de datos generales que conozco. Avance:Consíguelo aquí: bit.ly/datacardsplaybook (Imagen de Mahima Pushkarna, cocreador del libro de jugadas, usada con permiso) ¡Seamos amigos! Puedes encontrarme en Gorjeo, YouTube, Substack y LinkedIn. ¿Le interesa que hable en su evento? Utilice este formulario para ponerse en contacto.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…