职位描述
职位角色:数据分析师(Databricks,Apache Spark和Delta Lake,GenAI或AI/ML集成)。
地点:马尼拉。
期限:6个月以上的合约。
职位描述:
工作范围/责任
1. 数据管道开发:
- 设计、实施并优化端到端数据管道,使用Databricks和相关技术。
- 构建工作流以处理大规模数据的摄取、转换和存储。
2. LLM的数据准备:
- 为LLM训练和微调预处理、清理和构建多样化数据集(文本、结构化和非结构化)。
- 实施特征工程、分词和向量化技术以支持NLP模型。
3. 性能优化:
- 使用Databricks功能,包括Delta Lake和MLflow,来优化数据工作流。
- 优化数据基础设施以实现高可用性、可扩展性和成本效率。
4. 与团队的协作:
- 与数据科学家、ML工程师和其他利益相关者密切合作,了解LLM技术要求的数据需求。
- 确保工程管道与机器学习目标之间的一致性。
5. 数据质量与治理:
- 实施流程以确保数据质量、一致性以及符合治理政策。
- 监控并维护数据在管道生命周期中的完整性。
6. 新兴技术的采纳:
- 保持对Databricks、生成式AI和LLM技术进展的关注。
- 为采用创新工具和实践以改善工作流做出贡献。
要求和资格(教育与工作经验)
经验:
- 7年以上数据工程角色的工作经验,其中至少2年在领导角色及涉及Databricks的项目。
- 对数据管道、特征工程和机器学习(特别是LLM)的数据集准备有经过验证的专业知识。
- 具有构建企业级应用程序与GenAI或AI/ML集成的经验。
技术技能:
- 在Databricks、Apache Spark和Delta Lake方面具有专业知识。
- Python和SQL的强大编程技能;对如pandas、NumPy或PyTorch等库的了解为加分项
- 了解状态管理库,如Redux、Recoil或Zustand,Cypress和版本控制(Git)。
- 理解企业应用程序的网络安全原则和合规要求。
软技能:
- 卓越的问题解决和决策能力。
- 出色的沟通和领导能力,能够引导技术讨论并指导团队成员。
- 强烈关注质量交付。
数据建模ETL流程SQLPython数据仓库大数据技术云计算数据管道自动化NoSQL数据质量保证