Skip to content

Semántica de la entrega de eventos

Esta página describe y define cómo Currents gestiona los datos de eventos de archivo plano que enviamos a los socios de Almacenamiento de Datos.

Currents para almacenamiento de datos es una transmisión continua de datos desde nuestra plataforma a un contenedor de almacenamiento en una de las conexiones de nuestro socio de almacén de datos. Currents escribe archivos Avro en tu contenedor de almacenamiento en umbrales regulares, lo que te permite procesar y analizar los datos de eventos con tu propio conjunto de herramientas de inteligencia empresarial (BI).

Entrega única

Como sistema de alto rendimiento, Currents proporciona una entrega de eventos “al menos una vez”, lo que significa que ocasionalmente pueden escribirse eventos duplicados en tu contenedor de almacenamiento. Esto puede ocurrir cuando se reprocesan eventos de nuestra cola por cualquier motivo.

Si tus casos de uso requieren una entrega “exactamente una vez”, puedes utilizar el campo identificador único que se envía con cada evento (id) para deduplicar los eventos. Como el archivo sale de nuestro control cuando se escribe en tu contenedor de almacenamiento, no tenemos forma de garantizar la deduplicación desde nuestro lado.

Marcas de tiempo

Todas las marcas de tiempo exportadas por Currents se envían en la zona horaria UTC. Para algunos eventos en los que está disponible, también se incluye un campo de zona horaria, que entrega el formato de la Autoridad de Números Asignados de Internet (IANA) de la zona horaria local del usuario en el momento del evento.

Latencia

Los eventos enviados a Braze a través del SDK o la API pueden incluir una marca de tiempo del pasado. El ejemplo más notable es cuando los datos del SDK se ponen en cola, como cuando no hay conectividad móvil. En ese caso, la marca de tiempo del evento reflejará cuándo se generó el evento. Esto significa que un porcentaje de eventos parecerá tener una latencia alta.

Formato Apache Avro

Las integraciones de almacenamiento de datos Braze Currents emiten datos en el formato .avro. Elegimos Apache Avro porque es un formato de datos flexible que admite de forma nativa la evolución de esquemas y es compatible con una amplia variedad de productos de datos:

  • Avro es compatible con casi todos los principales almacenes de datos.
  • En caso de que desees dejar tus datos en S3, Avro comprime mejor que CSV y JSON, por lo que pagas menos por el almacenamiento y potencialmente puedes utilizar menos CPU para analizar los datos.
  • Avro requiere de esquemas cuando se escriben o leen datos. Los esquemas pueden evolucionar con el tiempo para adaptarse a la adición de campos sin romperse.

Currents creará un archivo para cada tipo de evento utilizando el siguiente formato:

1
<your-bucket-prefix>/dataexport.<cluster-identifier>.<connection-type-identifier>.integration.<integration-id>/event_type=<event-type>/date=<date>/<schema-id>/<zone>/dataexport.<cluster-identifier>.<connection-type-identifier>.integration.<integration-id>+<partition>+<offset>.avro

Umbral de escritura Avro

En circunstancias normales, Braze escribirá archivos de datos en tu contenedor de almacenamiento cada 5 minutos o cada 15 000 eventos, lo que ocurra antes. Si la carga es elevada, podemos escribir archivos de datos más grandes, con hasta 100.000 eventos por archivo.

Cambios en el esquema Avro

De vez en cuando, Braze puede realizar cambios en el esquema Avro cuando se añadan, cambien o eliminen campos. A nuestros efectos, hay dos tipos de cambios: con ruptura y sin ruptura. En todos los casos, se avanzará en <schema-id> para indicar que se ha actualizado el esquema. Los eventos Currents escritos en Azure Blob Storage, Google Cloud Storage y Amazon S3 escribirán el <schema-id> en la ruta. Por ejemplo <your-bucket-name0>/<currents-integration-id>/<event-type>/<date-of-event>/<schema-id>/<environment>/<avro-file>.

Cambios sin ruptura

Cuando se añade un campo al esquema Avro, lo consideramos un cambio no rupturista. Los campos añadidos serán siempre campos Avro “opcionales” (como con un valor por defecto de null), por lo que “coincidirán” con esquemas antiguos según la especificación de resolución de esquemas Avro. Estas adiciones no deben afectar a los procesos existentes de Extraer, Transformar, y Cargar (ETL), ya que el campo simplemente se ignorará hasta que se añada a tu proceso ETL.

Aunque nos esforzaremos por avisar con antelación en el caso de todos los cambios, podemos incluir cambios no rupturistas en el esquema en cualquier momento.

Cambios de última hora

Cuando un campo se elimina o se modifica en el esquema Avro, lo consideramos un cambio de última hora. Los cambios de ruptura pueden requerir modificaciones en los procesos ETL existentes, ya que es posible que los campos que estaban en uso ya no se registren como se esperaba.

Todos los cambios de última hora en el esquema se comunicarán con antelación al cambio.

¿QUÉ TAN ÚTIL FUE ESTA PÁGINA?
New Stuff!