3. Ingesta de archivos de data
Updated by bruno.morini@retargetly.com
Nota: Previo al envío de datos de usuarios personalizados al repositorio SFTP se debe realizar una sincronización de usuarios, cuya documentación se puede revisar en este artículo: 1. Proceso de Sync de cookies de usuario.
En este documento discutiremos cómo realizar una integración de transmisión de datos a través de SFTP o AWS Bucket para que el cliente pueda enriquecer la información de sus usuarios dentro de la plataforma DMP. Consta de los siguientes pasos:
- Configuración del repositorio SFTP / AWS Bucket
- Subiendo archivos de datos al repositorio
- Obtener el estado de cada archivo subido
Para conocer las especificaciones de formato de archivo, consulte el paso 4. Especificaciones de formato de archivo.
- Configuración del repositorio SFTP / AWS Bucket
Esto se puede hacer de dos formas diferentes:
1.A) El socio proporciona alojamiento de archivos de datos.
En este escenario, descarga de forma tardía los archivos de datos del repositorio SFTP proporcionado por el socio o AWS Bucket.
El cliente debe configurar un repositorio SFTP o AWS Bucket desde el cual Retargetly leerá los archivos de datos. El socio también debe asegurarse de que este repositorio tenga el espacio necesario para albergar todos los archivos que se cargan periódicamente, y deben durar un mínimo de 30 días desde la fecha de creación. Esto es para asegurar que en caso de cualquier falla, el sistema tenga la posibilidad de extraerlos nuevamente y no haya pérdida de información.
Retargetly enviará la siguiente información para que el cliente pueda crear el repositorio SFTP:
- retargetly.pub -> [Archivo con el acceso público al SFTP]
Esta clave pública debe instalarse para acceder a SFTP a través del usuario "retargetly".
Retargetly debería recibir la siguiente información (solo los campos cuyo valor esté entre []):
- Protocolo: SFTP
- Usuario: retargetly
- Host: [dirección del host]
- Puerto: [numero del puerto]
Si el socio proporciona a Retargetly un AWS Bucket, en lugar de solicitar la clave de publicación de Retargetly, el socio debe compartir la siguiente información:
- ID de clave de acceso de AWS. Ejemplo: MXLBICMFR5LPFC7B2AXD
- Clave de acceso secreta de AWS. Ejemplo: xF2mJwPuoMSkUTuVhmlqkfxPMWlkAplBxG2wfbSX
- Carpeta del repositorio de AWS Bucket. Ejemplo: s3: // repositorio-socio-para-retargetly / datafiles /
- Región de AWS. Ej: us-east-1
1.B) Retargetly proporciona el alojamiento de archivos de datos de forma tardía.
El socio carga archivos de datos a los servidores SFTP de Retargetly.
- Subiendo archivos de datos al repositorio.
El proceso de generación de archivos debe cumplir con las siguientes políticas:
- Cada archivo no debe pesar más de 250 MB.
- Los archivos deben durar al menos 30 días después de la fecha de generación. Entonces se pueden eliminar.
- Para conocer las especificaciones de formato de archivo, consulte el paso 4. Especificaciones de formato de archivo.
- Obtener el estado de cada archivo subido
Para cada archivo generado dentro del SFTP / AWS Bucket, puede obtener su estado. Los archivos tienen 3 estados posibles:
- En proceso
- Fallado
- Exitoso
Estos 3 estados se informan como un archivo hermano del archivo que se va a ingerir, pero con las siguientes extensiones:
- processing -> archivo sin contenido
- failed -> archivo con un mensaje de error
- success -> archivo con los resultados del procesamiento
Ejemplo, si el sistema está procesando el archivo_
"/nombre_personalizado_0000.tsv.gz"
En la misma carpeta, este archivo estará presente:
"/custom_name_0000.tsv.gz.processing"
Y una vez terminado, se borrará el .processing y este archivo se creará si la ejecución ha sido exitosa
"/custom_name_0000.tsv.gz.success"