SGV & Co. Data Engineer

Ingeniero de Datos

SGV & Co.

Negociable

Remoto1-3 años de experienciaDiplomaTiempo completo

Detalles remotos

Abrir país：Filipinas

Requisitos de idioma：Inglés

Este trabajo remoto está abierto a candidatos en países específicos. Por favor, confirme si desea continuar a pesar de las posibles restricciones de ubicación

Descripción del trabajo

Mostrar texto original

Descripción

Descripción del Rol:

El Ingeniero de Datos es responsable de diseñar, desarrollar y mantener pipelines de datos escalables e infraestructura, con un enfoque en aprovechar las tecnologías de Databricks y Data Lake. Este rol colabora con científicos de datos, analistas y equipos de negocios para asegurar el procesamiento, almacenamiento y accesibilidad eficientes de los datos para análisis. El Ingeniero de Datos jugará un papel clave en transformar datos en bruto en formatos valiosos y estructurados y en optimizar flujos de trabajo de datos para apoyar decisiones basadas en datos en toda la organización.

Responsabilidades Clave:

• Diseñar, implementar y gestionar pipelines de datos escalables para ingesta, procesamiento y almacenamiento, utilizando tecnologías de Databricks y Data Lake.

• Colaborar con científicos de datos, analistas y partes interesadas comerciales para entender las necesidades de datos y asegurar que las soluciones cumplan con los requisitos analíticos.

• Integrar múltiples fuentes de datos (por ejemplo, bases de datos, APIs, almacenamiento en la nube) en repositorios centralizados como Data Lakes, asegurando que los datos sean fácilmente accesibles y optimizados para el rendimiento.

• Desarrollar y automatizar procesos ETL (Extraer, Transformar, Cargar) utilizando Databricks y otras herramientas de big data. • Arquitectar y optimizar infraestructuras de Data Lake para almacenamiento y procesamiento de datos tanto estructurados como no estructurados.

• Aplicar procesos de validación, transformación y limpieza de datos para asegurar datos consistentes y de alta calidad a través de todos los pipelines.

• Automatizar flujos de trabajo de datos para asegurar un procesamiento de datos sin interrupciones y un acceso rápido para análisis y aprendizaje automático.

• Trabajar con plataformas en la nube como AWS, Google Cloud y Azure para construir soluciones de datos escalables basadas en la nube.

• Asegurar el cumplimiento con la privacidad de datos, la seguridad y las normas regulatorias en el manejo y procesamiento de datos.

• Solucionar problemas, monitorear y optimizar pipelines de datos para alta disponibilidad, rendimiento y resolución de errores.

• Documentar arquitecturas de pipelines de datos, mejores prácticas y procesos para fomentar el intercambio de conocimientos y la colaboración entre equipos.

Competencias Clave:

• Experiencia en Databricks: Sólida experiencia en el uso de Databricks para construir pipelines de datos, optimizar rendimiento de procesamiento y trabajar con Spark para procesamiento de datos a gran escala.

• Conocimiento de Data Lake: Fuerte comprensión de la arquitectura de Data Lake y mejores prácticas para gestionar datos estructurados y no estructurados.

• Habilidades de Programación: Dominio de Python, Java o Scala para construir y automatizar flujos de trabajo de datos.

• Experiencia en Plataformas de Nube: Habilidad para trabajar con plataformas en la nube (AWS, Azure, Google Cloud).

• Automatización ETL: Experiencia en automatizar procesos ETL usando plataformas como Apache Airflow y flujos de trabajo de Databricks.

• Integración de Datos: Capacidad para integrar y optimizar datos de múltiples fuentes en un pipeline cohesivo para análisis.

• Habilidades de Gestión de Personas: Capacidad probada para liderar, motivar y desarrollar un equipo de manera efectiva. Esto incluye establecer metas claras, proporcionar comentarios constructivos, resolver conflictos y fomentar un ambiente de trabajo positivo.

• Habilidades de Colaboración: Fuerte trabajo en equipo con la habilidad de comunicar conceptos técnicos complejos a partes interesadas técnicas y no técnicas.

Habilidades Requeridas:

• Experiencia comprobada como Ingeniero de Datos, específicamente con tecnologías de Databricks y Data Lake.

• Experiencia en SQL para gestionar y consultar grandes conjuntos de datos.

• Experiencia práctica con Databricks, Apache Spark y herramientas de big data relacionadas.

• Dominio de plataformas en la nube (AWS, Azure, Google Cloud).

• Familiaridad con herramientas de automatización ETL como Apache Airflow y flujos de trabajo de Databricks.

• Fuertes habilidades de programación en Python, Java o Scala para procesamiento de datos y desarrollo de pipelines.

• Excelentes habilidades de resolución de problemas, con la capacidad de solucionar y resolver desafíos complejos en ingeniería de datos.

Requisito

Por favor, consulte la descripción del trabajo.

Modelado de DatosProcesos ETLSQLPythonAlmacenamiento de DatosTecnologías de Big DataComputación en la NubeAutomatización de Pipeline de DatosNoSQLAseguramiento de Calidad de Datos