Ingeniero de Datos (Analista de Datos (Databricks, Apache Spark y Delta Lake, integraciones de GenAI o IA/ML).)

Datamatics

Negociable
RemotoExp de 3-5 YrsDiplomaContrato
Compartir

Detalles remotos

Abrir paísFilipinas

Requisitos de idiomaInglés

Este trabajo remoto está abierto a candidatos en países específicos. Por favor, confirme si desea continuar a pesar de las posibles restricciones de ubicación

Descripción del trabajo

Mostrar texto original

Descripción

Rol del Trabajo: Analista de Datos (Databricks, Apache Spark y Delta Lake, integraciones de GenAI o IA/ML).

Ubicación: Manila.

Duración: Contrato de más de 6 meses.


Descripción del Trabajo:

Alcance del Trabajo/Responsabilidades

1. Desarrollo de Pipeline de Datos:

  • Diseñar, implementar y optimizar pipelines de datos de extremo a extremo utilizando Databricks y tecnologías relacionadas.
  • Construir flujos de trabajo para manejar la ingestión, transformación y almacenamiento de datos a gran escala.


2. Preparación de Datos para LLMs:

  • Preprocesar, limpiar y estructurar conjuntos de datos diversos (texto, estructurados y no estructurados) para entrenamiento y ajuste fino de LLM.
  • Implementar ingeniería de características, tokenización y técnicas de vectorización para soportar modelos de NLP.


3. Optimización del Rendimiento:

  • Usar características de Databricks, incluyendo Delta Lake y MLflow, para optimizar flujos de trabajo de datos.
  • Optimizar la infraestructura de datos para alta disponibilidad, escalabilidad y eficiencia de costos.


4. Colaboración con Equipos:

  • Trabajar en estrecha colaboración con científicos de datos, ingenieros de ML y otros interesados para entender los requerimientos de datos para los requisitos tecnológicos de LLM.
  • Asegurar alineación entre pipelines de ingeniería y objetivos de aprendizaje automático.


5. Calidad de Datos y Gobernanza:

  • Implementar procesos para asegurar la calidad de los datos, consistencia y cumplimiento de políticas de gobernanza.
  • Monitorear y mantener la integridad de los datos a lo largo del ciclo de vida del pipeline.


6. Adopción de Nuevas Tecnologías:

  • Mantenerse actualizado sobre avances en Databricks, IA generativa y tecnologías de LLM.
  • Contribuir a la adopción de herramientas y prácticas innovadoras para mejorar flujos de trabajo.



Requisitos y Calificaciones (Educación y Experiencia Laboral)


Experiencia:

  • Más de 7 años de experiencia en roles de ingeniería de datos, con al menos 2 años en un rol de liderazgo y proyectos que involucren Databricks.
  • Experiencia comprobada en pipelines de datos, ingeniería de características y preparación de conjuntos de datos para aprendizaje automático, específicamente LLMs.
  • Experiencia construyendo aplicaciones de grado empresarial con integraciones de GenAI o IA/ML.


Habilidades Técnicas:


  • Experiencia en Databricks, Apache Spark y Delta Lake.
  • Fuertes habilidades de programación en Python y SQL; conocimiento de bibliotecas como pandas, NumPy o PyTorch es un plus
  • Comprensión de bibliotecas de gestión de estado como Redux, Recoil o Zustand. Cypress) y control de versiones (Git).
  • Comprensión de principios de seguridad web y requisitos de cumplimiento para aplicaciones empresariales.


Habilidades Blandas:

  • Habilidades excepcionales para solucionar problemas y tomar decisiones.
  • Excelentes habilidades de comunicación y liderazgo, con la capacidad de guiar discusiones técnicas y mentorar a los miembros del equipo.
  • Fuerte enfoque en la entrega de calidad

Requisito

Por favor, consulte la descripción del trabajo.

Modelado de DatosProcesos ETLSQLPythonAlmacenamiento de DatosTecnologías de Big DataComputación en la NubeAutomatización de Pipelines de DatosNoSQLAseguramiento de Calidad de Datos
Preview

Boss

HR ManagerDatamatics

Publicado el 23 April 2025

Reporte

Recordatorio de seguridad del jefe

Si la posición requiere que trabajes en el extranjero, por favor ten cuidado y ten cuidado con el fraude.

Si encuentras a un empleador que tiene las siguientes acciones durante tu búsqueda de empleo, por favor repórtalo inmediatamente

  • retiene tu ID,
  • requiere que usted proporcione una garantía o recoja la propiedad,
  • le obliga a invertir o recaudar fondos.
  • recauda beneficios ilícitos,
  • u otras situaciones ilegales.