高级数据工程师

Talentium

面议
远程工作1-3年经验专科合同工
分享

远程工作详情

工作开放国家菲律宾

语言要求英语

此远程作业对特定国家的候选人开放。请确认您是否想要继续,尽管有可能的位置限制

职位描述

显示原文

职位描述

工作范围/职责:

1. 数据管道开发:

· 设计、实施和优化使用Databricks及相关技术的端到端数据管道。

· 构建工作流程以处理大规模数据摄取、转换和存储。


2. LLM的数据准备:

· 预处理、清理和结构化多样的数据集(文本、结构化和非结构化)以进行LLM训练和微调。

· 实施特征工程、分词和向量化技术以支持NLP模型。


3. 性能优化:

· 使用Databricks功能,包括Delta Lake和MLflow,以简化数据工作流程。

· 优化数据基础设施以提高可用性、可扩展性和成本效益。


4. 与团队合作:

· 与数据科学家、机器学习工程师和其他相关方密切合作,以了解LLM技术需求的数据要求。

· 确保工程管道与机器学习目标之间的一致性。


5. 数据质量与治理:

· 实施流程以确保数据质量、一致性和遵循治理政策。

· 在整个管道生命周期中监控和维护数据完整性。


6. 新兴技术采纳:

· 了解Databricks、生成性AI和LLM技术的最新进展。

· 为采用创新工具和实践以改善工作流程做出贡献。


要求与资格(教育和工作经验):

经验:

· 7年以上数据工程角色的经验,至少2年担任领导角色并参与Databricks相关项目。

· 在数据管道、特征工程和机器学习(尤其是LLMs)数据集准备方面有公认的专业知识。

· 有构建企业级应用程序与GenAI或AI/ML集成的经验。


技术技能:

· 精通Databricks、Apache Spark和Delta Lake。

· 扎实的Python和SQL编程技能;掌握pandas、NumPy或PyTorch等库者优先

· 理解状态管理库(如Redux、Recoil或Zustand)和版本控制(Git)。

· 理解企业应用的网络安全原则和合规要求。


软技能:

· 出色的问题解决和决策能力。

· 优秀的沟通和领导技能,能够引导技术讨论并指导团队成员。

· 对提供高质量成果有强烈的关注。

职位要求

请参考职位描述。

数据建模ETL流程SQLPython数据仓库大数据技术云计算数据管道自动化NoSQL数据质量保证
Preview

Boss

HR ManagerTalentium

发布于 24 April 2025

Talentium

51-100人

其他

查看热招工作

举报

Bossjob安全提醒

如果该职位要求您在海外工作,请保持警惕,谨防欺诈。

如果你在求职过程中遇到有以下行为的雇主, 请立即举报

  • 扣留您的身份证,
  • 要求您提供担保或收取财产,
  • 迫使你投资或筹集资金,
  • 收集非法利益,
  • 或其他非法情况。