Engenheiro de Dados Sênior

Talentium

Negociável
Remoto1-3 Anos ExpDiplomaContrato
Compartilhar

Detalhes remotos

Abrir PaísFilipinas

Requisitos de IdiomaPortuguese-Brazil

Este trabalho remoto está aberto para candidatos em países específicos. Por favor, confirme se deseja continuar, apesar das restrições de localização.

Descrição do Trabalho

Mostrar texto original

Descrição:

Escopo de Trabalho/Responsabilidades:

1. Desenvolvimento de Pipeline de Dados:

• Projetar, implementar e otimizar pipelines de dados de ponta a ponta usando Databricks e tecnologias relacionadas.

• Construir fluxos de trabalho para lidar com ingestão, transformação e armazenamento de dados em larga escala.


2. Preparação de Dados para LLMs:

• Pré-processar, limpar e estruturar conjuntos de dados diversos (texto, estruturados e não estruturados) para treinamento e ajuste fino de LLM.

• Implementar engenharia de recursos, tokenização e técnicas de vetorização para suportar modelos de PLN.


3. Otimização de Performance:

• Usar recursos do Databricks, incluindo Delta Lake e MLflow, para agilizar fluxos de trabalho de dados.

• Otimizar a infraestrutura de dados para alta disponibilidade, escalabilidade e eficiência de custo.


4. Colaboração com Equipes:

• Trabalhar em estreita colaboração com cientistas de dados, engenheiros de ML e outras partes interessadas para entender os requisitos de dados para tecnologia LLM.

• Garantir alinhamento entre pipelines de engenharia e objetivos de aprendizado de máquina.


5. Qualidade e Governança de Dados:

• Implementar processos para garantir a qualidade, consistência e conformidade dos dados com políticas de governança.

• Monitorar e manter a integridade dos dados ao longo do ciclo de vida do pipeline.


6. Adoção de Tecnologias Emergentes:

• Manter-se atualizado sobre os avanços em Databricks, IA generativa e tecnologias LLM.

• Contribuir para a adoção de ferramentas e práticas inovadoras para melhorar fluxos de trabalho.


Requisitos e Qualificações (Educação e Experiência de Trabalho):

Experiência:

• Mais de 7 anos de experiência em funções de engenharia de dados, com pelo menos 2 anos em um papel de liderança e projetos envolvendo Databricks.

• Expertise comprovada em pipelines de dados, engenharia de recursos e preparação de conjuntos de dados para aprendizado de máquina, especificamente LLMs.

• Experiência em construir aplicações de nível empresarial com integrações GenAI ou AI/ML.


Habilidades Técnicas:

• Expertise em Databricks, Apache Spark e Delta Lake.

• Fortes habilidades de programação em Python e SQL; conhecimento de bibliotecas como pandas, NumPy ou PyTorch é um diferencial

• Compreensão de bibliotecas de gerenciamento de estado como Redux, Recoil ou Zustand.Cypress), e controle de versão (Git).

• Compreensão de princípios de segurança na web e requisitos de conformidade para aplicações empresariais.


Habilidades Interpessoais:

• Habilidades excepcionais de resolução de problemas e tomada de decisões.

• Excelentes habilidades de comunicação e liderança, com a capacidade de orientar discussões técnicas e mentorar membros da equipe.

• Foco forte na entrega de qualidade

Requisito

Por favor, consulte a descrição do trabalho.

Modelagem de DadosProcessos ETLSQLPythonArmazenamento de DadosTecnologias de Big DataComputação em NuvemAutomação de Pipeline de DadosNoSQLGarantia de Qualidade dos Dados
Preview

Boss

HR ManagerTalentium

Postado em 24 April 2025

Report this job

Bossjob Safety Reminder

If the position requires you to work overseas, please be vigilant and beware of fraud.

If you encounter an employer who has the following actions during your job search, please report it immediately

  • withholds your ID,
  • requires you to provide a guarantee or collects property,
  • forces you to invest or raise funds,
  • collects illicit benefits,
  • or other illegal situations.