איך לבנות agent AI ראשון: מדריך הנדסי מ-0 ל-production | BestAI
כללי
איך לבנות agent AI ראשון: מדריך הנדסי מ-0 ל-production
מדריך הנדסי בעברית לבניית agent AI ראשון: מה לבחור, איך להתחיל בלי לשרוף תקציב, וחמישה דברים שנשברים ב-production.
יואב הבונה
צוות BestAI
19 במאי 20266 דקות קריאה
רוב המתחילים בבניית agent (סוכן) פותחים את LangGraph או n8n בלי לדעת מה הם בעצם מנסים לבנות. אחרי שבועיים יש להם workflow שעובד פעם מתוך חמש, חשבון API של 200$, ושום מושג מה לתקן. עברתי את זה כשבניתי את ה-agent הראשון שלי ב-2024, ואז עוד שלושה ב-2025 בתפקיד. ב-2026 הכלים השתפרו, אבל הטעויות שאני רואה במנטורינג אצל סטארטאפים בישראל זהות. הנה איך הייתי בונה agent ראשון מ-0, אם הייתי מתחיל היום, נכון לגרסאות 2026 של ה-SDKים.
אם אתם רק רוצים ChatGPT שעונה, זה לא agent. agent הוא משהו אחר לגמרי.
מה הופך תוכנית רגילה ל-agent
הגדרה מעשית: agent הוא LLM שמקבל מטרה, יש לו גישה ל-tools, והוא רץ בלולאה עד שהמטרה הושגה או שהוא מוותר. ארבעה רכיבים. כל אחד מהם יכול להישבר בנפרד.
LLM: המנוע. Claude Sonnet 4.5, GPT-4.5, או Llama 3.3. אחראי על התכנון וההחלטה איזה tool להפעיל.
Tools (כלים): פונקציות שהמודל יכול לקרוא להן. חיפוש באינטרנט, קריאה לבסיס נתונים, שליחת מייל, הרצת קוד.
Memory (זיכרון): short-term (ההיסטוריה של ההרצה הנוכחית בלולאה) ו-long-term (מסמכים, שיחות עבר, profile של משתמש).
Loop (לולאה): ה-orchestration. מי קורא למי, מתי לעצור, מה לעשות כשתשובה לא חוזרת או tool זורק exception.
ההבדל בין chatbot ל-agent הוא הלולאה. chatbot עונה פעם אחת ומחכה לפרומפט הבא. agent ממשיך לפעול עד שמשהו קורה. וזה גם החלק שהכי קל לפשל בו, כי לולאה לא נכונה היא הוצאה לא נכונה.
מי שמדלג על ההבחנה הזאת מסיים עם system prompt עמוס וקוד שלא ברור למה הוא נשבר.
מקור התמונה: developers.openai.com
מה צריך לפני שאתם פותחים editor
שלושה דברים, אף אחד מהם לא קוד.
Use case ספציפי וצר. "agent שמסכם מיילים של היום" ולא "עוזר שיווק". ככל שהמטרה צרה יותר, כך הלולאה תתכנס מהר יותר ויהיה לכם פחות מה לתחזק.
Success metric מדיד. אם אתם לא יכולים להגיד "ה-agent הצליח כשהוא X", אין לכם דרך לדעת אם השיפור הבא עוזר. הגדירו את המטרה כמספר, לא תחושה.
גבול עלות. תקציב חודשי שאתם מוכנים לשרוף עליו בזמן build. אצלי זה 50$ למשך שבוע ראשון. ה-agent הראשון שלי שרף 80$ בלילה אחד בגלל לולאה אינסופית. תזכרו את המספר הזה.
אחרי שיש לכם את השלושה, רק אז פותחים editor. רוב הצוותים שאני עוזר להם מדלגים על השלב הזה ואז מתקשים שבועיים.
בחירת ה-stack: שלוש דרכים, מטרה אחת
בישראל ב-2026 רוב הצוותים שאני רואה משתמשים באחד משלושת ה-stacks האלה. בחירה לא נכונה תגרום לכם לחזור ולכתוב הכל מחדש בעוד חודש.
Stack
למי מתאים
זמן ל-MVP
תקרה
n8n
לא-מפתחים, אוטומציות שיווק/אופס
2-4 שעות
logic מורכב נשבר
OpenAI Agents SDK
מפתחי Python שרוצים מהר
חצי יום
multi-agent מאתגר
LangGraph
צוותי הנדסה רציניים, production
2-3 ימים
גמיש כמעט בלי תקרה
אם אתם פרילנסרים שמנסים למכור אוטומציה ללקוח B2B, n8n זה התשובה. אם אתם בונים מוצר SaaS עם agent בליבה, תתחילו ישר ב-LangGraph. ה-Agents SDK של OpenAI נמצא באמצע: נחמד לפרוטוטיפ, פחות נוח כשמגיע ה-debugging הרציני של multi-agent.
הכלל שעבד עליי: אם המוצר ימכר, אל תתחילו ב-no-code. אם הוא בעצמו אוטומציה פנימית, אל תתחילו ב-code.
נבנה agent קונקרטי: research agent שמקבל שאלה, מחפש באינטרנט, מסכם, ומחזיר תשובה עם מקורות. דוגמה קלאסית. שווה לבנות אותה לפני כל use case יותר מורכב, כי כל הבעיות מופיעות כאן בקטן.
בחרו מודל. Claude Sonnet 4.5 או GPT-4.5. גם וגם תומכים ב-tool calling יציב ובעברית סבירה. ההפרש בעלות בפרוטוטיפ זניח.
הגדירו tool אחד בלבד. web_search(query: str) -> List[Result]. השתמשו ב-Tavily API או ב-Brave Search. אל תתחילו עם חמישה tools, גם אם נראה שצריך.
כתבו system prompt קצר. שלושה משפטים מקסימום. מה המטרה, מתי לעצור, מה לעשות כשאין מידע. system prompt ארוך זה דגל אדום שהשלב הקודם (use case) לא הוגדר טוב.
הוסיפו מגבלת iterations. ה-agent לא ירוץ יותר מ-10 lap. אצלי זה הציל את החשבון פעמיים. ב-LangGraph זה recursion_limit. ב-Agents SDK יש max_turns.
הריצו על 5 שאלות אמיתיות. כתבו ידנית מה התשובה הנכונה לכל אחת, שמרו את ה-eval. הוא הכלי החשוב ביותר שלכם בחודש הראשון, יותר מהקוד עצמו.
תעדו את העלות. כמה טוקנים יצאו, כמה קריאות tool, איפה היה wait time. בלי זה אתם עיוורים כשמשהו ידפק.
שש שלבים. אם זה לוקח לכם יותר מיום עבודה, משהו לא בסדר ב-scope, חזרו לסעיף ה-prerequisites.
חמישה דברים שנשברו אצלי ב-production
ה-prototype תמיד עובד. production זה סיפור אחר. הנה מה ששרף לי שעות וכסף, ומה שלמדתי.
לולאות אינסופיות. ה-agent קורא ל-tool, ה-tool מחזיר טעות, ה-agent מנסה שוב, אותה טעות, וחוזר חלילה. אצלי זה היה 200 lap בתוך חצי שעה, שעלו 47$ לפני שתפסתי. הפתרון: max_turns נוקשה, plus log של ניסיון לקרוא ל-tool עם אותם פרמטרים, plus break מיידי.
JSON שבור ב-tool call. ב-3% מהקריאות המודל מחזיר JSON עם פסיק נוסף או escape שגוי. ב-Sonnet 4.5 זה השתפר משמעותית, אבל לא נעלם. תוסיפו fallback parser, או השתמשו ב-structured outputs של OpenAI שמכריחים schema.
הקשר מתפוצץ. אחרי 15 lap ה-context בלולאה גדל ל-50K טוקנים, ועלות גדלה לינארית. הפתרון: סיכום (summarization) של ה-state כל 5 lap. Anthropic כתבה על זה במדריך ה-tool use שלהם, שווה לקרוא לפני שמתחילים.
עברית ב-tool input. אם ה-tool שלכם מצפה לטקסט עברי וה-agent מייצר "אנתרופיק" במקום "Anthropic", search לא יחזיר תוצאות רלוונטיות. תכריחו את המודל ב-system prompt להשתמש בשמות חברות באנגלית.
עלות לא צפויה. agent אחד אצל לקוח שלי בחיפה הגיע ל-1,200$ בחודש (כ-4,500 ש"ח) בלי שהבחנו, כי משתמש אחד הריץ אותו בלולאה 8,000 פעם ביום. הפתרון: alerts ב-OpenAI ו-Anthropic dashboard על תקרת יומית, plus rate limit לכל user_id.
מה זה אומר לשלושה סוגי קהל
הכלים זהים לכולם, אבל הדרך הנכונה תלויה במי אתם. שלושה פרופילים שאני פוגש שבוע אחר שבוע בישראל:
פרילנסר או יועץ אוטומציה (1-2 אנשים): תתחילו ב-n8n או Make. הלקוח רוצה לראות תוצאה בשבועיים, לא ארכיטקטורה. אצל לקוח של סוכנות שיווק בתל אביב, agent ב-n8n שמסכם שיחות מכירה מתוך Zoom ומזין ל-HubSpot CRM יצא לפעולה תוך 12 שעות עבודה, ועלה 30 ש"ח לחודש להרצה על 200 שיחות. אילו הייתם פותחים LangGraph, הייתם עוד בכתיבת ה-state schema.
צוות הנדסה בסטארטאפ early-stage (3-10 מהנדסים): OpenAI Agents SDK או tool use של Claude ישירות. מהר מספיק לאיטרציה שבועית, מובנה מספיק כדי לא להישבר ב-rev 5. סטארטאפ ישראלי שאני מלווה בתחום ה-fintech בנה את ה-MVP של agent תמיכה ב-9 ימי עבודה, החליף ל-LangGraph רק אחרי 4 חודשים, כשהמוצר הפך לרב-מודלי וה-state נהיה מסובך.
צוות פלטפורמה בארגון גדול (10+ מהנדסים): LangGraph או framework פנימי דק מעליו. אתם צריכים observability רציני, version pinning, ויכולת להחליף מודל ספק תוך שבוע. בנק ישראלי שאני מכיר בנה wrapper פנימי מעל LangGraph כי דרישות הרגולציה והשמירה על נתונים הגבילו את ה-cloud providers שלהם לרשימה קצרה, וצריך היה לוודא שאף payload לא יוצא ל-US East.
לבנות agent בעצמכם מול שירות מנוהל
שאלה לגיטימית שעלתה לי בשבועיים האחרונים מצוותים שונים: למה לא פשוט להשתמש ב-OpenAI Assistants API או ב-Claude Agent מובנה במקום לבנות את הלולאה לבד? בדקתי את שניהם בעבודה אמיתית בשנה האחרונה, וההבדל מתמקד בשלושה אזורים שאסור להתעלם מהם.
שליטה ו-debugging: assistant מנוהל מסתיר מכם את ה-loop. נוח לפרוטוטיפ של יומיים, רע ל-debug ביום שלישי. כשה-agent עושה משהו מוזר ב-production, אין לכם access נקי ל-intermediate steps. ב-LangGraph או בקוד שכתבתם בעצמכם אתם רואים כל node שעבר, וכל החלטה של המודל מתועדת.
עלות: שירות מנוהל גובה לרוב premium של 20-40% מעל ה-API הגולמי, כי הם מנהלים threads, file storage ו-state. עבור 10K הרצות בחודש זה אומר 200-400$ נוספים (כ-750-1,500 ש"ח). לסטארטאפ ישראלי בתחילת דרכו זה כמעט חודש משכורת ל-junior, בלי שום ערך נוסף ללקוח הסופי.
Vendor lock: אם בניתם על OpenAI Assistants ורציתם לעבור ל-Claude כי המחיר ירד או האיכות עלתה, אתם כותבים את הלוגיקה מחדש. אם בניתם ב-LangGraph או ב-SDK פתוח, אתם מחליפים שורה אחת בקובץ config. אצל לקוח שלי בהרצליה, שינוי המודל מ-GPT-4 ל-Claude Sonnet 4.5 חסך 35% מהעלות החודשית בלי לגעת ב-logic של ה-agent. זמן ה-migration: שעה.
המסקנה הפרגמטית שלי: שירות מנוהל מצוין לפרוטוטיפ של יומיים שצריך להראות ל-PM. אם המוצר ייצא ל-production וישרת לקוחות משלמים, תכתבו את ה-loop בעצמכם. הזמן שתחסכו בהתחלה תשלמו בכפול ב-migration, ב-debugging, וב-vendor negotiation שנה מהיום.
מתי לעבור מ-no-code ל-code
יש לכם שאלה? בונים משהו ולא יודעים להמשיך?
קהילת BestAI בוואטסאפ, מאות יזמים ובעלי עסקים שמשתמשים ב-AI. שואלים, עונים, משתפים.
שאלה שאני נשאל הרבה. ה-tradeoff פשוט אם רואים אותו נכון.
n8n מנצח כשיש לכם פחות מ-3 tools, logic לינארי, ואין צורך ב-evals מסודרים. כל הצוותי שיווק בישראל שאני מכיר מתחילים שם, וזה הגיוני. אבל ברגע שאתם צריכים branching, memory מורכב, או custom tool שמחבר לבסיס נתונים פנימי, ה-code מנצח.
סימן מוחשי: אם אתם כותבים פונקציה ב-n8n שבעצם מתחילה להיות JavaScript ארוך של 50 שורות, זה הזמן לעבור. OpenAI Agents SDK הוא ה-onramp הקל ביותר ממקום של no-code, ו-LangGraph הוא היעד כשמגיעים לרצינות.
BestAI Take
הטעות הכי נפוצה שאני רואה אצל מי שמתחיל לבנות agent היא להתחיל מהכלי במקום מה-use case. אנשים פותחים n8n בלי לדעת מה הם רוצים שה-agent יעשה ספציפית. התוצאה: שבועיים של חיפושים, ולא agent.
אם אני מתחיל היום מאפס, אני בונה את ה-agent הראשון ב-Python עם OpenAI Agents SDK או עם tool use של Claude ישירות. ארבע שעות מ-0 ל-agent שעובד על 5 שאלות בדיקה. בלי framework, בלי vendor lock. ברגע שזה עובד, אפשר לדבר על LangGraph. לפני זה אתם מתעסקים בארכיטקטורה במקום במוצר. ב-BestAI אנחנו פוגשים הרבה צוותים שעוצרים בשלב ה-prototype בגלל זה, אז תזכרו: scope צר, eval קטן, ולולאה עם תקרה.
שאלות נפוצות
›כמה זמן לוקח לבנות agent ראשון?
תלוי באיזה stack בחרתם. אצל הצוותים שאני עוזר להם בישראל, ה-MVP הראשון של agent עם n8n לוקח 4-6 שעות עבודה כולל debugging. עם OpenAI Agents SDK ב-Python, חצי יום עד יום שלם. עם LangGraph, יומיים עד שבוע אם זה ה-agent הראשון שלכם. הזמן האמיתי לא בקוד אלא ב-prompt engineering: לזקק את ה-system prompt, להגדיר tools נכון, ולכתוב 5-10 בדיקות שמעידות שזה עובד. אצלי מי שמסיים MVP מתחת ל-3 ימים בדרך כלל לא בדק מספיק. תשקיעו את הזמן ב-eval לפני ה-scale, כי לולאה לא בדוקה הופכת מהר להוצאה.
›n8n או LangGraph, לאיזה צוות מתאים מה?
n8n לצוותים של 1-3 אנשים שצריכים אוטומציות פנימיות מהר. דוגמה: agent שמסכם מיילים יומיים של תמיכת לקוחות וכותב סיכום ל-Slack. שני workflows, חמש פעולות, וזה רץ. LangGraph לצוותי הנדסה שבונים agent כחלק ממוצר נמכר ללקוחות. דוגמה: סוכן support בתוך SaaS שצריך לקרוא לבסיס נתונים, לזכור היסטוריה של שיחה, ולנתב לאדם אנושי כשצריך. בקיצור: אם אתם צריכים branching מורכב, evals אוטומטיים, ו-deployment ב-CI/CD, n8n יכאיב לכם. אם אתם רוצים שמשהו ירוץ עד מחר, פתחו n8n. הזמן שתחסכו בלמידה שווה הרבה יותר מהגמישות שתאבדו.
›כמה זה עולה ב-API בפועל?
תלוי בטוקנים, אבל בחישוב כפול-אצבע עבור agent ממוצע ב-2026: קריאה שלמה (5-10 lap, 3-5 tool calls) עולה 0.05$ עד 0.20$ עם Claude Sonnet 4.5, או 0.03$ עד 0.15$ עם GPT-4.5. עבור use case אישי שעובד 100 פעם ביום, מדובר ב-5-20$ ליום (כ-20-75 ש"ח). עבור מוצר עם 1,000 משתמשים פעילים, התמחור משתנה לחלוטין: יהיה לכם צורך ב-Anthropic Scale tier או OpenAI Enterprise. תזכרו, ה-prompt engineering הוא הקובע. agent שמתבזבז על reasoning מיותר יעלה פי 3 מ-agent מהודק. בשבוע הראשון אצלי, ההוצאה הייתה פי 5 ממה שהערכתי. תכוונו הערכה שמרנית.
›האם עברית עובדת באמת ב-agent?
כן, אבל לא בלי תשומת לב. כל המודלים העיקריים ב-2026 (Claude Sonnet 4.5, GPT-4.5, Gemini 2.5 Pro) מבינים עברית ברמה גבוהה. הבעיה היא ה-tools. אם ה-agent קורא ל-search API שמצפה ל-query באנגלית והוא שולח לו עברית, התוצאות יהיו עלובות. הפתרון: ב-system prompt לציין במפורש מתי לתרגם ומתי להשאיר עברית. בנוסף, ה-tokenizer של עברית פחות יעיל, מה שאומר ש-context בעברית עולה יותר. בבדיקה שלי, agent שמטפל ב-input עברי משתמש בכ-1.6 יותר טוקנים מאותו agent באנגלית. שווה לזכור כשמחשבים תקציב חודשי, וגם לדעת שהגדרת tools היא לפעמים הצוואר בקבוק.
›מה ההבדל בין agent ל-workflow אוטומטי?
workflow אוטומטי הוא רצף קבוע: שלב 1 ואז 2 ואז 3. agent מחליט באיזה שלב לבחור. דוגמה: workflow שמשגר מייל כל יום ב-09:00 הוא לא agent, אפילו אם הוא משתמש ב-LLM לכתיבת התוכן. לעומת זאת, מערכת שמקבלת בקשת תמיכה ומחליטה בעצמה אם לחפש בידע הקיים, להפנות לאדם, או לסגור בעצמה, היא agent. ההבחנה חשובה כי agent דורש evals אחרים, debugging אחר, ותקציב גמיש יותר. אם מה שאתם בונים זה רצף קבוע עם LLM באמצע, אל תקראו לזה agent. workflow זה לגמרי לגיטימי, קל יותר לתחזוקה, וזול יותר ב-production. צוותים שמכריזים על workflow כ-agent מסבכים לעצמם את החיים.
›איך מנטרים agent ב-production בלי לקרוס כשמשהו נשבר?
שלוש שכבות שאני מתעקש עליהן אצל כל לקוח. ראשונה: structured logging של כל tool call עם הפרמטרים, ה-latency וה-token count. עם זה תפסתי לולאה אינסופית אצל לקוח בפתח תקווה תוך 15 דקות במקום 6 שעות. שנייה: traces ויזואליים, אם דרך LangSmith (29$ לחודש לצוות קטן), Langfuse self-hosted, או Helicone. אתם רוצים לראות עץ של ה-agent run, לא רק logs בשורות. שלישית: alerts על שני מספרים, עלות יומית ומספר iterations ממוצע per request. אם ה-average lap קופץ מ-4 ל-9, משהו השתנה במודל או ב-input. בלי השכבות האלה, ה-agent הראשון שלכם ב-production יהיה גם האחרון. צוותים שמתחילים בלי observability משלמים על זה תוך חודש, בדרך כלל סכום שאני לא אוהב לציין כי הוא מביך.