DevOps & AI Infrastructure Engineer

קריית ביאליק |
3-4 שנים |
משרה מלאה
| לפני 11 שעות
תיאור משרה

חברת Commit מחפשת DevOps & AI Infrastructure Engineer לתפקיד מאתגר ומרתק בחזית הטכנולוגיה בצפון הארץ.

במסגרת התפקיד, תחזוקה ואופטימיזציה של חוות ה-GPU הארגונית, תוך הנגשת משאבי המחשוב לפרויקטי ה-AI השונים בארגון.

הצטרפו אלינו לעשייה בעלת משמעות אמיתית והשפעה רחבה.

תחומי אחריות:

Onboarding לפרויקטים: ליווי צוותי פיתוח ו-Data Science בתהליך הכניסה לעבודה בחווה, החל מהגדרת הדרישות ועד להרצה מלאה.
בניית Docker Images: יצירה ותחזוקה של Image-ים מורכבים המותאמים לעבודה עם GPU (שימוש ב-NVIDIA Docker, CUDA, וכדומה) המותאמים לסטנדרטים הארגוניים.
ניהול ותפעול שוטף: ניהול ותפעול חוות ה-GPU על גבי סביבת OpenShift, כולל ניטור ביצועים, הקצאת משאבים ופתרון תקלות מורכבות.
אופטימיזציית משאבים: הטמעה וניהול של פתרונות תזמון וניהול תור (כמו Run:ai) למיקסום הניצולת של כרטיסי ה-GPU היקרים.
אוטומציה ו-CI/CD: בניית Pipelines להפצה מהירה של מודלים וסביבות עבודה.

דרישות התפקיד

דרישות סף :

ניסיון מוכח ב-OpenShift: שליטה מעמיקה בניהול קלאסטרים, Deployment, וניהול Storage/Networking בסביבת OpenShift (או Kubernetes ברמה גבוהה מאוד).

מומחיות ב-Docker: ניסיון מעשי בכתיבת Dockerfiles מורכבים, ניהול Multi-stage builds ואופטימיזציה של גדלי Images.

הכרות עם עולם ה-Linux: שליטה מלאה במערכות הפעלה Linux (RHEL/Ubuntu) ברמת ה-Kernel והדרייברים (בדגש על NVIDIA Drivers).

ניסיון ב-Automation: עבודה עם כלי CI/CD (כגון Jenkins, GitLab CI, או ArgoCD) וכלי Configuration Management (כגון Ansible).



יתרונות משמעותיים:

Run:ai: ניסיון קודם בעבודה עם מערכת Run:ai לניהול והקצאת GPU – יתרון גדול מאוד.

AI/MLOps Background: הכרות עם ספריות ו-Frameworks כמו PyTorch, TensorFlow, ו-KubeFlow.

ניטור (Monitoring): ניסיון בעבודה עם Prometheus ו-Grafana בדגש על ניטור GPU Metrics (NVML).

Python: יכולת כתיבת סקריפטים לאוטומציה ואינטגרציה של כלים.

* משרה זו פונה לנשים וגברים כאחד.