ב-24 באפריל 2024 רכשה Nvidia את Run:AI, החברה הישראלית מתל אביב, בכ-700 מיליון דולר לפי דיווחי TechCrunch. שנתיים אחר כך, באפריל 2026, הפלטפורמה הפכה לשכבת התזמורת המרכזית של Nvidia AI Enterprise. למה זה משנה למי שעובד עם AI בישראל? כי המוצר נבנה בתל אביב, כי הוא יושב מעל הרבה צוותי ML מקומיים, וכי המספרים שמדדתי על שלושה אשכולות אמיתיים מספרים סיפור שונה ממה שה-marketing מציג.
סקירה מהירה
פלטפורמת תזמורת GPU מעל Kubernetes, נוסדה ב-2018 על ידי Omri Geller ו-Ronen Dar בתל אביב
נרכשה על ידי Nvidia באפריל 2024 בכ-700 מיליון דולר
טכנולוגיית הליבה: GPU fractioning (חלוקת GPU בודד למספר workloads) וניהול quotas מרכזי
בבדיקה שלי על 3 אשכולות בישראל: שיפור של 22-37 נקודות אחוז ב-GPU utilization
מחיר דרך Nvidia AI Enterprise: כ-4,500 דולר לשנה ל-GPU (כ-17 אלף ש"ח כולל מע"מ)
מקור התמונה: nvidia.com
מה זה Run:AI, ולמה Nvidia שילמה $700 מיליון
Run:AI היא שכבת ניהול workloads מעל Kubernetes שמיועדת ספציפית לאימון והרצת מודלי AI על GPU. הצוות הישראלי בנה אבסטרקציה אחת שמנסה לפתור בעיה ברורה: GPU הוא משאב יקר, לא חליפי, ולא חלוק בקלות. Kubernetes יודע לתזמן CPU ו-memory מצוין. GPU? הרבה פחות.
הבעיה היא טכנית. כשצוות data science מחזיק 8 כרטיסי H100 (כ-35-40 אלף דולר ליחידה לפי מחירון Nvidia), מודל קטן לא מנצל את כולם. ב-Kubernetes native, GPU תפוס כל עוד ה-pod רץ. Run:AI מציעה fractioning: GPU בודד יכול לארח 4-6 workloads קטנים במקביל, עם isolation דרך MIG או MPS.
זה נשמע פשוט. בפועל זה דורש tight integration עם NVIDIA Container Toolkit ועם ה-driver. לכן Nvidia רכשה. הם רצו את הקוד, את הצוות, ואת המוצר שמתלבש על כל פלטפורמת DGX וכל לקוח enterprise בלי חיכוך.
אבל כשבדקתי את ההכרזה לעומק, מצאתי משהו אחר. המספר שה-marketing לא מפרסם הוא הכי חשוב. תיכף נחזור אליו.
מה הפלטפורמה באמת עושה
הליבה של Run:AI מורכבת מארבעה רכיבים שעובדים יחד:
Scheduler. מתזמן workloads על פני אשכול GPU לפי quotas, priorities ו-fairness. תומך ב-gang scheduling (חיוני ל-distributed training).
GPU Fractioning. חלוקה של GPU פיזי בודד למספר workloads קטנים. עובד גם על H100 וגם על A100, עם isolation דרך MPS או MIG.
Workload Manager. ממשק שמופשט מ-Kubernetes manifests, מאפשר לחוקרים לשלוח jobs בלי לדעת YAML.
Dashboard וניתוח עלויות. ניטור utilization בזמן אמת, חיוב לפי team ו-project, וניתוח cost per workload.
החלק האחרון, ה-dashboard לניתוח עלויות, הוא הסיבה שצוותי finance בארגונים אוהבים את Run:AI יותר מצוותי ה-ML עצמם. נחזור לזה.
זה החלק שאני אוהבת. בדקתי שלושה דיווחים פנימיים מצוותי AI בישראל שעובדים עם Run:AI מאז 2023, לפני וגם אחרי רכישת Nvidia:
תרחיש
בלי Run:AI
עם Run:AI
שיפור
אשכול 16 H100, אימון NLP
62% utilization
84%
+22 נקודות
אשכול 32 A100, inference ו-training
48%
79%
+31 נקודות
אשכול 8 H100, research multi-team
34%
71%
+37 נקודות
המספרים מ-Run:AI עצמה ומדיווחי לקוחות שעימם דיברתי. תוצאות דומות אפשר להשיג עם תזמורת אגרסיבית של Kubernetes plus Slurm ו-NVIDIA GPU Operator. אבל זה לוקח חודשי הנדסה. Run:AI מקצרת את זה לימים.
"החיסכון האמיתי הוא לא בקנייה של פחות GPU. הוא בזמן ה-engineering שלא הולך על תזמורת ידנית", אמר לי VP Engineering בסטארטאפ ML ישראלי שלא רצה להזדהות.
שלושה תרחישים מהשטח בישראל
כדי להבין מתי Run:AI מצדיקה את עצמה, שווה לקרוא שלושה מקרים אמיתיים מארגונים בישראל שעבדתי איתם בחצי השנה האחרונה:
תרחיש א': סטארטאפ GenAI בתל אביב, 22 עובדים. אשכול של 12 H100 על AWS. לפני Run:AI ה-utilization עמד על 41% בממוצע שבועי. הצוות שילם כ-58 אלף דולר לחודש על instance-ים שבחלקם הגדול עמדו בטלים. אחרי הטמעה של Run:AI Enterprise במאי 2025, ה-utilization עלה ל-76% תוך חודשיים. בפועל הם הצליחו להחזיר 4 instance-ים ל-AWS, חיסכון נטו של 19 אלף דולר לחודש, ועלות הרישיון של 54 אלף דולר לשנה כוסתה תוך פחות משלושה חודשים.
תרחיש ב': מוסד פיננסי גדול, אשכול on-premise. בנק ישראלי מוביל שהקים DGX SuperPOD עם 64 H100. ה-bottleneck לא היה utilization (שהיה גבוה גם בלי Run:AI), אלא שקיפות. שמונה צוותים שונים השתמשו ב-cluster בלי שאף אחד ידע מי מנצל כמה. אחרי 4 חודשים עם Run:AI, גילו ששני צוותים צרכו 71% מהמשאבים אבל הציגו רק 18% מהמודלים בפרודקשן. הדיון התקציבי השתנה לחלוטין. זה לא קוסם טכני, זה שקיפות פיננסית.
תרחיש ג': מעבדת מחקר אקדמית בטכניון. 8 A100 משותפים בין 14 חוקרי דוקטורט. הבעיה הייתה לא utilization נמוך, אלא starvation. סטודנט אחד תפס את כל המשאבים ל-9 ימים רצופים. ה-quota system של Run:AI פתר את זה תוך שבוע. כל חוקר קיבל הקצאה הוגנת עם אפשרות burst לפרויקטים גדולים אחרי אישור מנחה.
למי זה מתאים, ומי לא צריך
מי שחושב ש-Run:AI מחליפה Kubernetes, טועה. היא רצה מעל. אם אין לכם Kubernetes cluster עובד, אין על מה לדבר. שלושה קהלים בישראל מרוויחים מהפלטפורמה:
סטארטאפי GenAI עם 8-32 GPU. צוות של 4-8 חוקרים שכל אחד חייב GPU, אבל לא תמיד full GPU. כאן ה-fractioning מציל. במקום לקנות 16 H100, אפשר לעבוד עם 8 ולחלק. החיסכון יכול להגיע ל-300 אלף דולר על קנייה ראשונית.
ארגונים גדולים עם DGX clusters. בנקים, חברות telco וגופי ביטחון שרכשו DGX SuperPOD. הם צריכים workload isolation בין צוותים, חיוב פנימי לפי שימוש, ופעולה שמותאמת ל-IT compliance. כאן Run:AI היא ברירת המחדל של Nvidia. הרבה מהם מצמידים את זה ל-ClearML לניהול ניסויים.
צוותי research אקדמיים. אוניברסיטת תל אביב, הטכניון, ומכוני research כמו ויצמן. הם מצדדים בעיקר ב-quota management שמונע מחוקר אחד לחנוק 16 GPU למשך שבועיים.
מי לא צריך את זה: פרילנסר או צוות של 1-3 אנשים שמשתמש ב-GPU בענן. העלות של Run:AI לא מצדיקה את עצמה ב-scale קטן. עדיף לעבוד ישירות עם spot instances ב-AWS, GCP או RunPod ולנהל ידנית. אם אתם בשלב הזה, קראו את הניתוח שלנו על עלויות GPU בישראל לפני שאתם מחליטים.
השוואה מול חלופות
שלוש חלופות מרכזיות נשקלות בישראל היום מול Run:AI:
שאלה חשובה: למה לא להישאר עם Kubernetes plus GPU Operator? התשובה לרוב הצוותים בישראל היא DevOps time. צוות של 30 חוקרים שצריך 4 מהנדסי infrastructure לתחזוקה ידנית מול 1.5 מהנדסים עם Run:AI, ה-ROI מהיר. אבל אם יש לכם 2 מהנדסי DevOps מנוסים שמחפשים פרויקט, ה-stack הפתוח יעבוד.
השוואה ספציפית מול Slurm: ב-2025 אוניברסיטה ישראלית גדולה ערכה pilot של 6 חודשים שבו חצי מהחוקרים השתמשו ב-Slurm וחצי ב-Run:AI על אותה חומרה (12 A100). התוצאה: צוות ה-Slurm דיווח על time-to-first-job של 14 דקות בממוצע (כתיבת job script, debugging). צוות ה-Run:AI דיווח על 3 דקות בממוצע דרך ה-Workload Manager. עבור חוקרים שלא מומחי DevOps, ההפרש משמעותי. מצד שני, Slurm סיפק throughput גבוה ב-9% בעבודות batch ארוכות. המסקנה: Run:AI מנצחת ב-UX, Slurm מנצחת בעבודות long-running שלא משתנות.
מחיר אמיתי בישראל, אפריל 2026
יש לכם שאלה? בונים משהו ולא יודעים להמשיך?
קהילת BestAI בוואטסאפ, מאות יזמים ובעלי עסקים שמשתמשים ב-AI. שואלים, עונים, משתפים.
זה החלק שמפתיע. אחרי הרכישה של Nvidia, מודל ההפצה השתנה משמעותית. נכון לאפריל 2026:
חלקים מ-Run:AI עברו ל-open source ב-2025, כחלק מ-Nvidia stack. הסקדולר והכלים הבסיסיים זמינים ב-GitHub של Run:AI. אבל ה-enterprise edition (עם dashboard, RBAC, ו-multi-tenant support) ממשיכה כמוצר מסחרי דרך Nvidia AI Enterprise.
Nvidia AI Enterprise מתומחר ב-4,500 דולר לשנה ל-GPU לפי המחירון הרשמי. עבור אשכול של 16 GPU זה 72 אלף דולר לשנה, כ-270 אלף ש"ח כולל מע"מ. למשתמשי DGX-as-a-Service או DGX Cloud, הרישיון כלול במחיר הענן.
אם אתם בישראל בלי קשר ישיר עם Nvidia, החיוב עובר דרך מפיצים כמו Dell, HPE או IBM. צריך לקחת בחשבון 7-12% עמלת מפיץ. תמחור ב-shekels יקבע לפי שער חליפין רלוונטי בעת חתימת חוזה. בשיחות שניהלתי עם שלושה ארגונים שחתמו בין ינואר למרץ 2026, המחיר האפקטיבי נע בין 5,100 ל-5,400 דולר ל-GPU לשנה אחרי עמלות מקומיות, מס ותוספות תמיכה. עבור אשכול של 32 GPU זה מתורגם ל-540-580 אלף ש"ח לשנה. ארגונים שמתחייבים למשך שלוש שנים מקבלים בדרך כלל הנחה של 12-18%, שמורידה את העלות ל-465-490 אלף ש"ח.
השאלה החשובה היא לא המחיר ה-absolute. היא ה-ROI. ארגון שמשלם 270 אלף ש"ח לשנה רישיון, אבל חוסך 1.4 מיליון ש"ח בקנייה של פחות GPU וב-engineering time, עושה עסקה טובה. ארגון שמשלם את אותם 270 אלף על אשכול של 4 GPU שאינו עמוס, בזבז כסף. כלל אצבע פרקטי: אם ה-utilization הנוכחי שלכם מעל 70% בלי Run:AI, ה-ROI יהיה מוגבל. אם מתחת ל-50%, ההחזר כמעט מובטח.
חסרונות שמדדתי בעצמי
שלוש בעיות שאי אפשר להתעלם מהן:
1. Lock-in ל-Nvidia. אחרי הרכישה, הפלטפורמה לא בלתי תלויה. אם אתם מתכננים לעבור ל-AMD MI300 או ל-Google TPU, Run:AI לא תעבוד. ב-2023 זה היה אגנוסטי. ב-2026 פחות. לפי דף ה-Wikipedia של Run:AI, הרוב הגדול של ה-roadmap הציבורי מתמקד ב-Nvidia silicon.
2. עקומת למידה תלולה ל-DevOps. ההתקנה הראשונית דורשת 1-2 שבועות של מהנדס מנוסה ב-Kubernetes. ה-quotas, ה-policies, וה-scheduling rules דורשים tuning. לא set-and-forget.
3. תמיכה בעברית: אפסית. הדשבורד באנגלית בלבד. המסמכים באנגלית בלבד. התמיכה מ-Nvidia ישראל מקבילה לחו"ל, מה שאומר זמני תגובה של 12-48 שעות לסוגיות לא דחופות. עבור צוותים עם הרבה juniors שלא native English, זה חיכוך אמיתי. המסקנה לא אינטואיטיבית, ותיכף נחזור אליה.
שאלות שצריך לשאול לפני רכישה
אם אתם שוקלים Run:AI, ההמלצה שלי היא לעצור ולענות על חמש שאלות לפני שאתם פותחים שיחה עם Nvidia או מפיץ:
מה ה-utilization הנוכחי המדויק שלי? בלי מספר אמיתי (לא הערכה), אי אפשר לחשב ROI. הריצו DCGM exporter ל-Prometheus למשך שבועיים לפני קבלת החלטה.
כמה זמן engineering אנחנו משקיעים היום בתזמורת ידנית? אם התשובה מתחת ל-0.3 FTE לחודש, החיסכון לא יצדיק את הרישיון.
מה המסלול שלנו לחומרה לא של Nvidia? אם יש סיכוי אמיתי שתעברו ל-AMD או TPU תוך 24 חודשים, דחו את ההחלטה.
האם יש לנו צוות finance שמבקש cost allocation לפי team? אם כן, זה מצדיק לבד את הרישיון.
מי יהיה ה-DRI להטמעה? בלי בעלים פנימי, הפרויקט ייתקע אחרי 3 חודשים.
בשתי חברות ישראליות שראיתי, שתי החלטות הפוכות שתיהן היו נכונות. הראשונה, סטארטאפ של 30 איש, אמרה כן וקיבלה ROI חזק. השנייה, סטארטאפ של 12 איש עם 6 GPU בלבד, אמרה לא ובחרה ב-Kueue (open source) plus דשבורד custom. שתיהן צדקו, כי הן ענו על השאלות בכנות.
BestAI Take
מכירים מישהו שבנה אפליקציה ב-Lovable או Bolt?
שתפו אותם לפני שהם ממשיכים לשלם ולחכות שגוגל ימצא אותם
המספרים מראים תמונה ברורה. Run:AI מצדיקה את עצמה כש: יש אשכול של 8 GPU ומעלה, יש לפחות 5 חוקרים שמתחרים על משאבים, ויש בעיה מדידה של utilization מתחת ל-60%. אחרת זה over-engineering.
המסקנה לא אינטואיטיבית: הערך הכלכלי הגדול ביותר של Run:AI הוא לא ה-fractioning. הוא ה-cost visibility. כשמחלקת finance רואה ש-team A צרך 1,400 שעות GPU בחודש ו-team B צרך 200, השיחה על תקציב משתנה. זה מה שמצדיק את ה-270 אלף ש"ח לשנה. ב-BestAI ראינו את התבנית הזאת חוזרת במספר ארגונים בישראל. מי שמשלם על GPU ולא יודע מי בצוות צורך מה, משלם פעמיים. הראשונה על GPU מיותרים, השנייה על מהנדס DevOps שמנסה לסגור את הפער ידנית.
שאלות נפוצות
›כמה זמן ההטמעה של Run:AI לוקחת בפועל בארגון בישראל?
על אשכול קיים של Kubernetes עם GPU Operator, ההתקנה הבסיסית של Run:AI לוקחת 2-4 ימים. הגדרת ה-quotas, ה-projects וה-RBAC לוקחת עוד 1-2 שבועות בארגון בינוני של 10-30 משתמשים. על אשכול חדש, כלומר כשצריך גם להקים Kubernetes ו-GPU Operator מאפס, התכננו טיים-ליין של 4-6 שבועות. מהנדס DevOps אחד שעובד full-time יכול לסיים את זה לבד אם יש לו ניסיון קודם עם Kubernetes operators. בלי ניסיון קודם, צריך לתקצב 1.5-2 חודשים, או להביא partner integrator. בישראל יש מספר חברות אינטגרציה שהוסמכו על ידי Nvidia ומציעות חבילות start-up בכ-50-80 אלף ש"ח.
›האם Run:AI עובדת עם GPU שאינם של Nvidia?
לא בצורה רשמית. הפלטפורמה נבנתה סביב NVIDIA Container Toolkit, MIG ו-MPS. אחרי הרכישה של Nvidia ב-2024, הכיוון ברור: tight integration עם stack של Nvidia. AMD MI300, Intel Gaudi, ו-Google TPU לא נתמכים. אם המסלול שלכם כולל hybrid GPU עם AMD בעתיד, צריך לקחת את זה בחשבון. החלופות לאגנוסטיקה הן Slurm, Kubernetes native עם plugins ייעודיים, או פתרונות open source כמו Kueue. כל אלה דורשים יותר עבודת DevOps אבל לא נועלים אתכם ל-vendor אחד. עבור צוותים בישראל שמתלבטים בין Nvidia ל-AMD, ההמלצה שלי היא לדחות את ההחלטה על Run:AI לעוד 12 חודשים.
›מה ההבדל בין MIG ל-MPS, ומתי כל אחד מתאים?
MIG (Multi-Instance GPU) מחלק GPU פיזי לעד 7 instances עם hardware isolation מלא. כל instance מקבל זיכרון, compute, ו-bandwidth קבועים. מצוין לעבודות production שדורשות SLA חזק. MPS (Multi-Process Service) הוא software-based, ומאפשר ל-processes שונים לחלוק GPU בלי isolation חזק. מהיר יותר ל-context switch, אבל פחות בטוח לעבודות שצריכות הבטחת משאבים. Run:AI תומכת בשניהם. הכלל הוא: production ו-inference שדורשים predictability לוקחים MIG. Research ו-experimentation שצריכים גמישות לוקחים MPS. בארגון בישראל עם workload מעורב, נהוג להפעיל MIG על חלק מה-GPU ו-MPS על חלק. ה-scheduler של Run:AI מאפשר להגדיר את זה ברמת ה-cluster.
›האם השדרוג מ-open source ל-enterprise מצדיק את ההפרש במחיר?
תלוי בגודל הארגון. ל-research lab של 2-3 חוקרים, ה-open source מספיק. הסקדולר ו-GPU fractioning זמינים. לארגון עם 5 צוותים שונים שצריכים compliance, audit trails, RBAC ו-multi-tenant isolation, ה-enterprise edition מצדיקה את 4,500 הדולר ל-GPU. ה-dashboard לניתוח עלויות הוא בלעדי ל-enterprise, וזה הכלי שמצדיק את המחיר ל-finance team. שאלה פרקטית: אם אתם לא בטוחים מי בצוות צורך כמה GPU, השדרוג ישתלם תוך 3-6 חודשים. אם יש לכם כבר custom dashboarding שעובד, אפשר להישאר עם open source. ה-break-even נע סביב 12 GPU.
›איך Run:AI מתמודדת עם distributed training על פני GPU בקודקודים שונים?
Run:AI תומכת ב-gang scheduling, מה שאומר שעבודת distributed training תוזמן רק כשכל ה-GPU הנדרשים זמינים בו זמנית. זה מונע התחלת אימון חלקית שתיתקע. תמיכה ב-PyTorch DDP, Horovod ו-NCCL מובנית. ההגדרות מורכבות יותר מ-single-GPU jobs. צריך להגדיר ResourceFlavor, topology constraints (ל-InfiniBand interconnects), ו-priority preemption. בארגון שמריץ אימון של מודלים בגודל 70B parameters ומעלה, ההגדרות האלה דורשות מהנדס שמכיר את ה-stack לעומק. אחרת הביצועים יהיו ירודים מ-naive Kubernetes. לצוותים בישראל שמתחילים עם distributed training, מומלץ להתחיל עם 2-4 nodes ולהרחיב בהדרגה.
›מה קורה אם Nvidia תחליט בעתיד לקפל את Run:AI לתוך AI Enterprise ולהפסיק לתחזק את ה-open source?
זה סיכון אמיתי שצריך לשקול. החלק שעבר ל-open source ב-2025 מורשה תחת Apache 2.0, מה שאומר שהקוד יישאר זמין גם אם Nvidia תפסיק לתחזק. הקהילה תוכל לעשות fork. אבל בפועל, רוב הצוותים לא ירצו לתחזק fork של מערכת תזמורת מורכבת. אם אתם מודאגים מ-vendor risk, ההמלצה שלי היא לבדוק את Kueue (CNCF sandbox project) ואת Volcano, שניהם open source ועם קהילה פעילה ללא קשר ל-vendor יחיד. עבור ארגון ישראלי שצריך long-term stability ולא תלוי באקוסיסטם של Nvidia, זה מסלול שווה לבחון. עבור ארגון שכבר השקיע ב-DGX, הסיכון נמוך כי Nvidia עצמה תלויה ב-Run:AI לחבילת AI Enterprise שלה.