數據工程師(數據分析師(Databricks、Apache Spark 和 Delta Lake、GenAI 或 AI/ML 整合))

Datamatics

面議
远程办公3 - 5 年經驗專科契約工
分享

遠程工作詳情

工作開放國家菲律賓

語言要求英語

這項遠距工作向特定國家的候選人開放。 請確認您是否要繼續,儘管可能有位置限制

職位描述

顯示原文

簡介

工作角色:數據分析師(Databricks、Apache Spark 和 Delta Lake、GenAI 或 AI/ML 整合)。

地點:馬尼拉。

期限:6 個月及以上的合同。


工作描述:

工作範圍/職責

1. 數據管道開發:

  • 設計、實施和優化使用 Databricks 及相關技術的端對端數據管道。
  • 構建工作流來處理大規模數據攝取、轉換和存儲。


2. LLM 的數據準備:

  • 對多樣化數據集(文本、結構化和非結構化)進行預處理、清理和結構化,以支持 LLM 訓練和微調。
  • 實施特徵工程、標記化和向量化技術來支持 NLP 模型。


3. 性能優化:

  • 使用 Databricks 特色,例如 Delta Lake 和 MLflow,來簡化數據工作流。
  • 優化數據基礎設施以實現高可用性、可擴展性和成本效率。


4. 與團隊合作:

  • 與數據科學家、ML 工程師和其他利益相關者密切合作,以了解 LLM 技術的數據需求。
  • 確保工程管道與機器學習目標之間的對齊。


5. 數據質量和治理:

  • 實施流程以確保數據質量、一致性和遵守治理政策。
  • 在整個管道生命周期中監控和維護數據完整性。


6. 新興技術採用:

  • 隨時了解 Databricks、生成式 AI 和 LLM 技術的最新進展。
  • 為採用創新工具和實踐做出貢獻,以改善工作流程。



要求和資格(教育和工作經驗)


經驗:

  • 7 年及以上的數據工程角色經驗,其中至少 2 年為領導角色,並涉及 Databricks 的項目。
  • 在數據管道、特徵工程和機器學習的數據集準備方面有證明的專業知識,特別是 LLMs。
  • 有使用 GenAI 或 AI/ML 整合構建企業級應用程序的經驗。


技術技能:


  • 在 Databricks、Apache Spark 和 Delta Lake 方面的專業知識。
  • 在 Python 和 SQL 中具有強大的編程技能;了解 pandas、NumPy 或 PyTorch 等庫者優先
  • 了解狀態管理庫,如 Redux、Recoil 或 Zustand、Cypress 和版本控制(Git)。
  • 了解網絡安全原則和企業應用程序的合規要求。


軟技能:

  • 卓越的問題解決和決策能力。
  • 優秀的溝通和領導能力,能夠引導技術討論並指導團隊成員。
  • 強調交付質量。

職位要求

請參閱工作描述。

數據建模ETL 流程SQLPython數據倉儲大數據技術雲計算數據管道自動化NoSQL數據質量保證
Preview

Boss

HR ManagerDatamatics

發布於 23 April 2025

舉報

Bossjob安全提醒

若該職位需要您出國工作,請提高警惕,並小心詐騙。

如果您在求職過程中遇到雇主有以下行為, 請立即檢舉

  • 扣留您的身分證件,
  • 要求您提供擔保或收取財產,
  • 迫使您投資或籌集資金,
  • 收取非法利益,
  • 或其他違法情形。