Categories: CienciaNoticias

5 cosas que debe saber antes de usar la clasificación de datos nativos de Snowflake

Obtenga información sobre la función de detección de PII de Snowflake

Foto de AbsolutVision en UnsplashEn el mundo actual, la recopilación y el procesamiento de datos están regulados y las organizaciones no tienen más remedio que cumplir con estas regulaciones. En consecuencia, las empresas comenzaron a repensar la forma en que diseñan sus sistemas de información, almacenes de datos y procesos comerciales teniendo en cuenta la privacidad. Un elemento fundamental de la implementación de los principios de protección de datos es clasificación de datos.La clasificación de datos a menudo se define como el proceso de organizando datos dentro grupos de categorias, de forma que ayude a las empresas a utilizarlo y protegerlo de manera más eficiente. La clasificación de datos nos ayuda a comprender lo que tenemos en términos de semántica para protegerlo mejor. Sin embargo, este componente suele ser un problema dificil para resolver… algunas empresas siguen el camino manual, y otras usan ML para clasificar automáticamente sus conjuntos de datos. De cualquier manera, abordar este problema es caro y puede ser ineficaz en función de cómo y dónde se almacenan los datos. Si Snowflake está presente en su pila de datos, es posible que desee aprovechar su función nativa de clasificación de datos. Después de escanear y analizar el contenido y los metadatos de los objetos de su almacén de datos (tablas, vistas, etc.), esta función determinará las categorías semánticas y de privacidad adecuadas. Lo ayudará a descubrir y etiquetar datos PII y reduce significativamente la complejidad y el costo de controlar y proteger sus datos.Texto a imagen usando Midjourney: un oso polar que protege las bases de datos en la nube. Pero antes de que decida usar la función de clasificación de datos nativos de Snowflake, hay algunas cosas importantes que debe considerar:

1. Tipos de datos

Aunque puede clasificar datos semiestructurados (columnas de tipo VARIANT con objetos JSON), la función se limita a analizar una VARIANT con un solo tipo de datos, por ejemplo: un varchar o un número. Si sus tablas no contienen ningún campo JSON, esto no debería ser un gran problema. Sin embargo, si confía mucho en la capacidad de Snowflake para almacenar y consultar datos semiestructurados, debe recordar que no se puede combinar con la función de clasificación de datos. Deberá pensar en un proceso de varios pasos, donde (1) aplana sus columnas y se asegura de que sea uno de los tipos de datos admitidos, luego (2) ejecuta la clasificación.

2. Integración

Hablando de procesos, el segundo punto se trata de encontrar el paso correcto en el que necesita/quiere realizar la clasificación de sus datos. Lo más probable es que ya haya implementado canalizaciones de datos establecidas, que están alimentando muchas bases de datos en diferentes entornos. Entonces, ¿en qué punto clasificas concretamente tus datos? Tal vez, podría estar pensando, justo después de volcarlo en el almacén de datos. Si es así, ¿la calidad de los datos en esta etapa es lo suficientemente buena como para clasificarlos de manera confiable con un alto nivel de confianza? ¿Qué pasa con el volumen de datos? Tal vez sea mejor si la clasificación se lleva a cabo más abajo después de limpiar y modelar los datos, ¿verdad? ¿Cómo manejará el cumplimiento, la gobernanza y la seguridad en ese caso? ¿Qué pasa con los datos que nunca llegarán a la capa de negocios/métricas? Estas son algunas de las preguntas que debe responder a fondo incluso antes de comenzar a clasificar sus datos.

3. Automatización y escalabilidad

En su blog, Snowflake describe la función de clasificación de datos nativos como si eliminara todos los procesos manuales. Este puede ser el caso en escenarios ideales con conjuntos de datos personalizados, sin embargo, los casos de uso del mundo real son muy diferentes; Los almacenes de datos suelen contener varios entornos, bases de datos y recursos compartidos de datos. De hecho, Snowflake ofrece tres procedimientos almacenados; uno que se puede usar para clasificar todas las tablas en un esquema, el segundo para clasificar todas las tablas en una base de datos y el tercero, para aplicar los hallazgos de clasificación en las columnas de objetos clasificados usando etiquetas. Un procedimiento almacenado activado manualmente (o incluso programado) simplemente no cumple con las expectativas en términos de automatización, escalabilidad y monitoreo. Especialmente porque no hay una manera fácil de clasificar solo objetos nuevos o modificados. En contraste con el artículo del blog mencionado anteriormente, la documentación de Snowflake sugiere un flujo de trabajo, donde los usuarios pueden elegir revisar manualmente el resultado de la clasificación y modificarlo según sea necesario. El problema con este enfoque es que es difícil de escalar; no solo porque involucra la atención humana sino también por la falta de una interfaz de usuario que facilite el proceso de revisión y aprobación. Necesita construir sus propias herramientas para cerrar esta brecha.

4. Rendimiento

La evaluación del desempeño es multifacética, pero solo hablaré de un lado; exploraciones de tablas completas. Para analizar columnas en una tabla/vista, debe ejecutar la siguiente función: EXTRACT_SEMANTIC_CATEGORIES(‘‘ [,<max_rows_to_scan>]) Además del nombre del objeto (por ejemplo, el nombre de la tabla), toma un parámetro opcional llamado max_rows_to_scan> que representa el tamaño de la muestra. Si no lo establece explícitamente en un número entre 0 y 10000, se establecerá de forma predeterminada en 10000 filas. Al principio, pensé que el tamaño de la muestra tiene un impacto importante en el rendimiento (tiempo de ejecución de la consulta), pero poco después de experimentar con la función, me di cuenta de que no importa cuán grande o pequeño establezca el tamaño de la muestra, Snowflake realizará una tabla completa. escaneo cada vez que llamo a la función. El tamaño de la muestra afectará principalmente a la precisión del resultado de la clasificación, pero no al rendimiento. Si planea ejecutar el proceso de clasificación en un horario frecuente, debe evaluar el rendimiento. Si encuentra que la clasificación es lenta, puede usar más potencia de cómputo para acelerar las cosas o usar técnicas como Muestreo de filas basado en fracciones para omitir un escaneo completo de la tabla.

5. Extensibilidad

Una vez que la función EXTRACT_SEMANTIC_CATEGORIES ejecuta el algoritmo de clasificación, el siguiente paso es aplicar el resultado generado en las columnas del objeto de destino como etiquetas. A partir de la fecha de publicación de este artículo, las etiquetas de clasificación disponibles se enumeran a continuación:{
“nombre”: [
“PRIVACY_CATEGORY”,
“SEMANTIC_CATEGORY”
],
“valores_permitidos”: [
[
“IDENTIFIER”,
“QUASI_IDENTIFIER”,
“SENSITIVE”,
“INSENSITIVE”
],
[
“EMAIL”,
“GENDER”,
“PHONE_NUMBER”,
“IP_ADDRESS”,
“URL”,
“US_STATE_OR_TERRITORY”,
“PAYMENT_CARD”,
“US_SSN”,
“AGE”,
“LAT_LONG”,
“COUNTRY”,
“NAME”,
“US_POSTAL_CODE”,
“US_CITY”,
“US_COUNTY”,
“DATE_OF_BIRTH”,
“YEAR_OF_BIRTH”,
“IBAN”,
“US_PASSPORT”,
“MARITAL_STATUS”,
“LATITUDE”,
“LONGITUDE”,
“US_BANK_ACCOUNT”,
“VIN”,
“OCCUPATION”,
“ETHNICITY”,
“IMEI”,
“SALARY”,
“US_DRIVERS_LICENSE”,
“US_STREET_ADDRESS”
]
]
}Estas etiquetas ya están definidas para usted y se almacenan en el esquema CORE en SNOWFLAKE solo lectura base de datos compartida. Esto significa que, si desea aplicar automáticamente las etiquetas mediante el procedimiento almacenado ASSOCIATE_SEMANTIC_CATEGORY_TAGS, está limitado a esta lista de etiquetas disponibles. Dado el hecho de que muchos identificadores y cuasi_identificadores son centrado en EE. UU., es posible que deba pensar en definir su propia lista de etiquetas. Pero, el verdadero desafío es averiguar cómo funcionará esta nueva lista junto con la nativa. Como resultado, realizará pasos adicionales, como crear y configurar las etiquetas: CREAR [ OR REPLACE ] ETIQUETA [ IF NOT EXISTS ] …
ALTER TABLE… MODIFY COLUMN… SET TAGEn resumen, diseñar y construir una solución de clasificación de datos no es una tarea fácil. Snowflake proporciona un buen punto de partida que ya abstrae muchos desafíos con una llamada a una sola función. Sin embargo, no espere que escanee automáticamente todo su almacén de datos y muestre cualquier PII usando etiquetas. Los ingenieros de datos aún necesitan diseñar el proceso de extremo a extremo; incluyendo, entre otros, la creación de algunas herramientas para facilitar el proceso de revisión manual y las optimizaciones para el volumen de datos, el presupuesto y los patrones de uso. Es posible que los cinco puntos enumerados anteriormente no cubran todos los aspectos de la producción de la función de clasificación de PII en Snowflake. Entonces, si tiene algo diferente que agregar, o si cree que algunos aspectos se pueden abordar con un mejor enfoque, escriba un comentario y comparta sus pensamientos.

aliintizar71

Recent Posts

Máquina de mano Lean, Green, Raspberry Pi

Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…

2 years ago

Cómo pronosticar series de tiempo usando autorregresión

Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…

2 years ago

Aquí están todas las formas en que puede cargar su AirPods Pro

Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…

2 years ago

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…

2 years ago

AirPods Max 2: aquí están las características más solicitadas

Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…

2 years ago

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia

El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…

2 years ago