数据工程师(数据分析师(Databricks,Apache Spark和Delta Lake,GenAI或AI/ML集成)。)

Datamatics

面议
远程工作3-5年工作经验专科合同工
分享

远程工作详情

工作开放国家菲律宾

语言要求英语

此远程作业对特定国家的候选人开放。请确认您是否想要继续,尽管有可能的位置限制

职位描述

显示原文

职位描述

职位角色:数据分析师(Databricks,Apache Spark和Delta Lake,GenAI或AI/ML集成)。

地点:马尼拉。

期限:6个月以上的合约。


职位描述:

工作范围/责任

1. 数据管道开发:

  • 设计、实施并优化端到端数据管道,使用Databricks和相关技术。
  • 构建工作流以处理大规模数据的摄取、转换和存储。


2. LLM的数据准备:

  • 为LLM训练和微调预处理、清理和构建多样化数据集(文本、结构化和非结构化)。
  • 实施特征工程、分词和向量化技术以支持NLP模型。


3. 性能优化:

  • 使用Databricks功能,包括Delta Lake和MLflow,来优化数据工作流。
  • 优化数据基础设施以实现高可用性、可扩展性和成本效率。


4. 与团队的协作:

  • 与数据科学家、ML工程师和其他利益相关者密切合作,了解LLM技术要求的数据需求。
  • 确保工程管道与机器学习目标之间的一致性。


5. 数据质量与治理:

  • 实施流程以确保数据质量、一致性以及符合治理政策。
  • 监控并维护数据在管道生命周期中的完整性。


6. 新兴技术的采纳:

  • 保持对Databricks、生成式AI和LLM技术进展的关注。
  • 为采用创新工具和实践以改善工作流做出贡献。



要求和资格(教育与工作经验)


经验:

  • 7年以上数据工程角色的工作经验,其中至少2年在领导角色及涉及Databricks的项目。
  • 对数据管道、特征工程和机器学习(特别是LLM)的数据集准备有经过验证的专业知识。
  • 具有构建企业级应用程序与GenAI或AI/ML集成的经验。


技术技能:


  • 在Databricks、Apache Spark和Delta Lake方面具有专业知识。
  • Python和SQL的强大编程技能;对如pandas、NumPy或PyTorch等库的了解为加分项
  • 了解状态管理库,如Redux、Recoil或Zustand,Cypress和版本控制(Git)。
  • 理解企业应用程序的网络安全原则和合规要求。


软技能:

  • 卓越的问题解决和决策能力。
  • 出色的沟通和领导能力,能够引导技术讨论并指导团队成员。
  • 强烈关注质量交付。

职位要求

请参阅职位描述。

数据建模ETL流程SQLPython数据仓库大数据技术云计算数据管道自动化NoSQL数据质量保证
Preview

Boss

HR ManagerDatamatics

发布于 23 April 2025

举报

Bossjob安全提醒

如果该职位要求您在海外工作,请保持警惕,谨防欺诈。

如果你在求职过程中遇到有以下行为的雇主, 请立即举报

  • 扣留您的身份证,
  • 要求您提供担保或收取财产,
  • 迫使你投资或筹集资金,
  • 收集非法利益,
  • 或其他非法情况。