簡介
工作角色:數據分析師(Databricks、Apache Spark 和 Delta Lake、GenAI 或 AI/ML 整合)。
地點:馬尼拉。
期限:6 個月及以上的合同。
工作描述:
工作範圍/職責
1. 數據管道開發:
- 設計、實施和優化使用 Databricks 及相關技術的端對端數據管道。
- 構建工作流來處理大規模數據攝取、轉換和存儲。
2. LLM 的數據準備:
- 對多樣化數據集(文本、結構化和非結構化)進行預處理、清理和結構化,以支持 LLM 訓練和微調。
- 實施特徵工程、標記化和向量化技術來支持 NLP 模型。
3. 性能優化:
- 使用 Databricks 特色,例如 Delta Lake 和 MLflow,來簡化數據工作流。
- 優化數據基礎設施以實現高可用性、可擴展性和成本效率。
4. 與團隊合作:
- 與數據科學家、ML 工程師和其他利益相關者密切合作,以了解 LLM 技術的數據需求。
- 確保工程管道與機器學習目標之間的對齊。
5. 數據質量和治理:
- 實施流程以確保數據質量、一致性和遵守治理政策。
- 在整個管道生命周期中監控和維護數據完整性。
6. 新興技術採用:
- 隨時了解 Databricks、生成式 AI 和 LLM 技術的最新進展。
- 為採用創新工具和實踐做出貢獻,以改善工作流程。
要求和資格(教育和工作經驗)
經驗:
- 7 年及以上的數據工程角色經驗,其中至少 2 年為領導角色,並涉及 Databricks 的項目。
- 在數據管道、特徵工程和機器學習的數據集準備方面有證明的專業知識,特別是 LLMs。
- 有使用 GenAI 或 AI/ML 整合構建企業級應用程序的經驗。
技術技能:
- 在 Databricks、Apache Spark 和 Delta Lake 方面的專業知識。
- 在 Python 和 SQL 中具有強大的編程技能;了解 pandas、NumPy 或 PyTorch 等庫者優先
- 了解狀態管理庫,如 Redux、Recoil 或 Zustand、Cypress 和版本控制(Git)。
- 了解網絡安全原則和企業應用程序的合規要求。
軟技能:
- 卓越的問題解決和決策能力。
- 優秀的溝通和領導能力,能夠引導技術討論並指導團隊成員。
- 強調交付質量。
數據建模ETL 流程SQLPython數據倉儲大數據技術雲計算數據管道自動化NoSQL數據質量保證