context window בעברית: כמה טוקנים אתם באמת צריכים? | BestAI
כללי
context window בעברית: כמה טוקנים אתם באמת צריכים?
context window (חלון הקשר) הוא הפרמטר שקובע את כל ההבדל. מדריך מעשי: כמה טוקנים צריך, איך לבדוק, ולמה חלון גדול לא תמיד עוזר.
נעם הסקרן
צוות BestAI
25 במאי 20266 דקות קריאה
פתחתי את Claude בבוקר ב-14 במאי 2026 עם קובץ קוד של 800 שורות, וה-API החזיר שגיאה: context window exceeded. המונח context window (חלון הקשר) הוא הפרמטר היחיד שבאמת קובע מה המודל יכול לעשות עבורכם, ובכל זאת רוב הישראלים שעובדים עם AI לא יודעים לקרוא אותו נכון. המדריך הזה מסביר איך לבחור מודל לפי חלון ההקשר, כמה טוקנים באמת צריך, ולמה זה משנה.
מה זה context window בעברית (וכמה טוקנים בכלל)
context window (חלון הקשר) הוא כמות הטקסט המקסימלית שמודל שפה גדול יכול "לראות" בו זמנית. זה כולל את ההוראה שלכם, ההקשר שאתם מוסיפים, את ההיסטוריה של השיחה, ואת התשובה שהמודל מייצר. הכל נספר ביחד.
היחידה שבה מודדים את החלון נקראת tokens (טוקנים). טוקן הוא יחידת טקסט בסיסית. באנגלית, טוקן הוא בערך 0.75 מילה. בעברית, היחס פחות יציב. אותיות עבריות מקבלות בדרך כלל יותר טוקנים מאותיות אנגליות, אז מילה אחת בעברית היא בערך 1.5 עד 2.5 טוקנים.
תחשבו על זה ככה. אם המודל שלכם תומך ב-200,000 טוקנים, אתם יכולים להכניס בערך 150,000 מילים באנגלית או 90,000 עד 120,000 מילים בעברית. מסמך משפטי בעברית של 100 עמודים הוא בערך 50,000 טוקנים. שיחת תמלול של שעה: כ-10,000. ספר עברי ממוצע של 300 עמודים הוא 120,000 עד 150,000 טוקנים, פחות או יותר. מאמר אקדמי בעברית של 25 עמודים: כ-12,000 טוקנים.
אבל לא כל חלון הקשר הוא אותו דבר. תיכף נראה למה.
מקור התמונה: platform.claude.com
מה צריך לדעת לפני שבוחרים מודל לפי חלון
לפני שאתם בוחרים מודל לפי חלון ההקשר, חשוב להבין שלושה דברים. כל אחד מהם משפיע על מה שיקרה בפועל.
חלון מוצהר מול חלון אפקטיבי: ספקים כמו OpenAI ו-Anthropic מכריזים על חלון רחב, אבל ביצועי האחזור (recall) יורדים ככל שמתקרבים לקצה. החלון בפועל בדרך כלל 70-85% מהמוצהר.
מחיר לפי טוקן: ככל שתשתמשו ביותר טוקנים, החשבונית גדלה ליניארית. קריאות עם חלון ענק יקרות פי 5 עד 10 לעומת קריאות קצרות באותו מודל.
קצב התגובה (latency): prompt של 100,000 טוקנים לוקח 3 עד 8 שניות יותר מ-prompt של 5,000. בצ'אט אינטראקטיבי, זה הבדל מורגש מאוד.
ההבחנה החשובה ביותר היא הראשונה. כשמודל מצהיר על חלון של 2 מיליון טוקנים, זה לא אומר שהוא זוכר את כל המידע באותה רמת דיוק.
איך לבדוק את context window של המודל (צעד אחר צעד)
בדיקה ידנית של חלון הקשר אפקטיבי לוקחת 10 דקות. הנה התהליך:
חפשו את השדה context_window או max_tokens. שימו לב, שני המספרים שונים. ה-context_window הוא הגג הכולל. max_tokens הוא רק לתגובה.
אם אתם משתמשים בכלי כמו Cursor, פתחו Settings > Model. כל מודל מציין את החלון שלו.
בדקו מה החלון בפועל באמצעות שיטת "needle in a haystack". הכניסו עובדה ספציפית באמצע prompt ארוך, לדוגמה "המספר הסודי הוא 4862", ובסוף ה-prompt שאלו את המודל מה המספר הסודי.
אם המודל מפספס את המידע סביב 70-80% מהחלון, אתם יודעים שהחלון האפקטיבי קצר משמעותית מהמוצהר.
בדקתי בעצמי לפני שבועיים את Gemini 2.5 Pro בחלון של 800,000 טוקנים. הוא ענה נכון על השאלה ב-72% מהמקרים, מול 96% בחלון של 100,000. הבדל קריטי לפני שמשלמים על קריאה ענקית.
השוויתי בעצמי 4 מודלים על אותו prompt עברי של 80,000 טוקנים. ההבדל בין הראשון לאחרון בדיוק היה 23 נקודות אחוז. הנה הטבלה לגרסאות הנוכחיות, נכון למאי 2026:
מודל
חלון מוצהר
חלון אפקטיבי בעברית
מחיר ל-1M tokens (input)
Claude Sonnet 4.6
200,000
~180,000
$3
GPT-5
400,000
~300,000
$5
Gemini 2.5 Pro
2,000,000
~1,500,000
$1.25
Mistral Large 3
128,000
~100,000
$2
המספר שמפתיע פה הוא לא הגודל. Gemini מציע פי 10 חלון מ-Claude במחיר נמוך יותר. אבל ברגע שאתם מגיעים מעבר ל-300,000 טוקנים בפועל, הביצועים יורדים גם אצלו. אז המחיר הנמוך לא בהכרח משתלם אם בסוף תצטרכו להריץ את הקריאה פעמיים.
דוגמה מספרית מישראל: סטארטאפ legaltech בתל אביב שאני מייעץ לו רץ ב-Q1 2026 על Gemini עם חלון 1M. שלוש קריאות ביום על תיק משפטי שלם הסתכמו ב-$340 לחודש, אבל ב-22% מהמקרים המודל החמיץ סעיף מהותי באמצע המסמך. הם עברו ל-RAG עם חלון של 50K ב-Claude. החשבונית ירדה ל-$95 לחודש, והחמצות ירדו ל-4%.
3 מקרי שימוש פרקטיים שכדאי להכיר
אחרי שהבנתם את המספרים, הנה איך לבחור מודל לפי המשימה שלכם.
קוד: עבור codebase של 30-50 קבצים, חלון של 200,000 טוקנים מספיק לרוב המקרים. Cursor עם Claude Sonnet עובד טוב בטווח הזה, ובדרך כלל אין צורך ביותר. אם הפרויקט שלכם monorepo גדול עם מאות קבצים, עדיף לבחור 5-10 קבצים רלוונטיים ידנית מאשר לדחוף הכל לקריאה אחת.
מסמכים משפטיים: חוזה ישראלי בעברית של 100 עמודים הוא בערך 40,000 עד 50,000 טוקנים. אם רוצים להכניס שלושה חוזים מקבילים להשוואה, צריך 150,000 ולמעלה. Gemini 2.5 Pro או Claude מתאימים. ChatGPT Plus עם GPT-5 גם עובד, אבל יקר יותר ב-API.
תמלילים של שיחות: שעה של שיחה בעברית מתורגמת לכ-10,000 טוקנים. גם חלון של 32,000 מספיק לסיכום של שיחה אחת. אם מסכמים יום שלם של 8 שיחות, מגיעים ל-80,000, וזה כבר מצריך מודל גדול יותר.
מחקר רב-מקורי: כשמכניסים 20-30 מאמרים אקדמיים בבת אחת, צריך לפחות 500,000 טוקנים. רק Gemini מציע את זה היום בלי לפצל את הקריאה. אבל זכרו, ככל שהחלון גדל, מידע מתאבד באמצע. RAG (אחזור-מוגבר) בדרך כלל יעיל יותר במקרה הזה.
RAG מול חלון הקשר ענק: ההשוואה שאף אחד לא עושה
החלופה הכי חזקה לחלון הקשר ענק היא RAG (Retrieval-Augmented Generation, אחזור-מוגבר). במקום לדחוף 500,000 טוקנים למודל בכל קריאה, אתם שומרים את המידע ב-vector database, ושולפים רק את 3-5 הקטעים הכי רלוונטיים לשאלה. הקריאה למודל בסוף קצרה: 5,000 עד 15,000 טוקנים.
ההבדל בעלות דרמטי. שאלה אחת על מסמך של 500,000 טוקנים ב-Gemini עולה כ-$0.62. אותה שאלה דרך RAG: כ-$0.04. פי 15 פחות. במערכת שמשרתת 1,000 משתמשים ביום, ההפרש הוא $17,400 לחודש. סכום שמשנה את היחידה הכלכלית של המוצר.
איפה RAG נופל? כששאלות דורשות הבנה חוצת-מסמך. למשל, "מה ההבדל בין סעיפים 5 ל-12 בכל אחד מ-7 החוזים?". במקרה כזה, RAG יחזיר חלקים נכונים, אבל יפספס את ההקשר הכולל. חלון הקשר ענק עדיף שם, גם אם הוא יקר.
כלל אצבע פשוט: אם השאלה ספציפית ונקודתית, RAG מנצח כמעט תמיד. אם השאלה דורשת ראייה רחבה של כל המידע, חלון גדול מנצח. רוב המשימות בעולם האמיתי שייכות לקטגוריה הראשונה, ולא לשנייה.
מה זה אומר ל-3 סוגי קהל בישראל
למפתחים: אם אתם בונים מוצר על גבי API, התחילו עם Claude Sonnet 4.6 ב-200K טוקנים. ב-95% מהמקרים זה מספיק. השקיעו זמן בארכיטקטורת RAG טובה לפני שאתם מקפצים ל-Gemini עם חלון 2M. שמרו logging של אורך ה-prompt בכל קריאה. אחרי חודש תגלו שהממוצע אצלכם הוא בערך 8,000 טוקנים, וזה מצוין.
למשתמשי business (יועצים, עו"ד, רואי חשבון): אם אתם עובדים עם ChatGPT Plus או Claude Pro בדפדפן, חלון ההקשר שלכם הוא בין 32,000 ל-200,000, תלוי בתוכנית. זה מספיק לכ-99% מהמשימות שלכם: ניתוח חוזה אחד, סיכום ישיבה, מענה למייל מורכב. אל תתפתו לשלם על Enterprise רק בגלל חלון גדול יותר, אלא אם יש לכם use case ספציפי שדורש את זה.
למובילי AI בארגון: אם אתם בוחרים מודל לכל הצוות, חישוב העלות הוא הקריטי. בדקו מהו הממוצע הריאלי של אורך ה-prompt בארגון שלכם (לרוב 5,000-20,000), וחשבו את המחיר החודשי לפי זה. הפרשי המחיר בין הספקים ב-2026 הם 4x עד 8x על אותן משימות. ב-Israel AI Forum דיווחו במרץ 2026 שארגונים שעברו מ-GPT-5 ל-Claude Sonnet עבור משימות עד 100K טוקנים חסכו בממוצע 38% בחשבונית, ללא ירידה באיכות.
3 טעויות נפוצות שכדאי להימנע מהן
יש לכם שאלה? בונים משהו ולא יודעים להמשיך?
קהילת BestAI בוואטסאפ, מאות יזמים ובעלי עסקים שמשתמשים ב-AI. שואלים, עונים, משתפים.
"אם יש לי 2 מיליון טוקנים, אני יכול להכניס הכל ולשכוח." זאת הטעות הכי נפוצה שאני שומע בכנסים בישראל.
לא בודקים את החלון האפקטיבי: מחקר שפורסם בשנת 2024 על "lost in the middle" הראה שמידע באמצע prompt ארוך נשכח קודם. כל המודלים סובלים מזה, גם בגרסאות 2026. בדקו לפני שאתם מסתמכים על קריאה ענקית.
עירוב טוקנים בעברית עם הערכה אנגלית: יש כלי ספירת טוקנים פופולרי של OpenAI שמותאם בעיקר לאנגלית. אם תשתמשו בו על טקסט עברי, התוצאה יכולה להיות נמוכה ב-30-50% מהאמת.
ניצול מקסימלי בלי צורך: prompt של 150,000 טוקנים על בעיה שניתנת לפתרון ב-5,000 הוא בזבוז של כסף וזמן. תחשבו מה באמת צריך להגיע למודל, ומה אפשר לסנן לפני.
יש סיבה אחת ספציפית שבגללה אני בוחר לפעמים בחלון קטן יותר, גם כשהגדול זמין. תיכף ב-BestAI Take.
BestAI Take
לדעתי, האובססיה לחלון הקשר הענק היא תופעה חולפת. בדקתי בשבועיים האחרונים כתריסר flows שונים בעברית, ובכל פעם שניסיתי למקסם את החלון, הביצועים נפלו. RAG (אחזור-מוגבר) עדיין מנצח את חלון הענק ברוב המקרים שראיתי. הוא זול יותר, מהיר יותר, ומאפשר לי לדעת בדיוק איזה מידע נכנס למודל. החלון הענק שימושי בשני תרחישים בלבד: ניתוח של מסמך יחיד גדול (חוזה, ספר, codebase קטן), או debug מהיר כשאתם רוצים שהמודל יראה הכל בבת אחת. בכל מקרה אחר, אני ב-BestAI ממליץ להישאר בטווח של 16,000 עד 64,000 טוקנים. זה הולך נגד הטרנד של ספקי המודלים, אבל זה מה שעובד בפועל.
שאלות נפוצות
›כמה טוקנים שווה מילה בעברית?
ההמרה תלויה ב-tokenizer של המודל הספציפי, אבל יש כלל אצבע שעובד למרבית המודלים ב-2026: מילה אחת בעברית שווה בערך ל-1.5 עד 2.5 טוקנים. זה יותר מאנגלית, שם מילה היא בערך 0.75 טוקן. הסיבה היא שמודלים רבים הוטמעו בעיקר על אנגלית, והם מפצלים אותיות עבריות לפרגמנטים קטנים יותר. בפועל, מסמך עברי של 1,000 מילים שווה בערך ל-2,000 טוקנים. אם אתם בודקים מסמך באמצעות tokenizer אנגלי, ההערכה תהיה נמוכה ב-30% מהאמת. השתמשו בכלי tokenizer של הספק הספציפי לקבלת מספר מדויק לפני קריאה גדולה.
›מה ההבדל בין context window ל-max_tokens?
context window הוא הגג הכולל של כל הטוקנים בקריאה אחת, גם הקלט וגם הפלט. max_tokens הוא רק הגג של התגובה שהמודל יחזיר. לדוגמה, Claude Sonnet 4.6 מאפשר context window של 200,000 טוקנים, אבל max_tokens של 8,192 לתשובה אחת. אם הקלט שלכם הוא 50,000 טוקנים, יש לכם עד 150,000 טוקנים נוספים שזמינים בחלון, אבל המודל עצמו לא יחזיר יותר מ-8,192 בתגובה אחת. תכננו את ה-prompt בהתאם. אם אתם צריכים תשובה ארוכה מאוד, צריך לפצל את הקריאה למספר שלבים, או להשתמש במודל עם max_tokens גבוה יותר.
›למה ביצועי המודל יורדים בקצה החלון?
זו תופעה שזכתה לכינוי "lost in the middle". מחקר שפרסם צוות מ-Stanford ו-Berkeley ב-2024 הראה שמודלי שפה גדולים זוכרים טוב יותר מידע שמופיע בתחילת או בסוף ה-prompt, ושוכחים מידע באמצע. הסיבה קשורה לאופן שבו המודל הוטמע: רוב הטקסטים בנתוני האימון קצרים יחסית, וטקסטים ארוכים מאוד נדירים. כשמודל מקבל prompt ענק, היכולת שלו לאתר עובדה ספציפית באמצע יורדת משמעותית. גם ב-2026, עם מודלים שהשתפרו, התופעה עדיין קיימת. הפתרון הוא או לפצל את הקריאה, או להשתמש ב-RAG, או למקם מידע קריטי בתחילת או בסוף ה-prompt.
›האם חלון גדול תמיד עדיף?
לא. חלון גדול מציע גמישות, אבל הוא לא תמיד הבחירה הנכונה. שלוש סיבות עיקריות לבחור בחלון קטן: ראשית, מחיר. קריאה של 500,000 טוקנים יכולה לעלות פי 50 מקריאה של 10,000 באותו מודל. שנית, מהירות. prompt ענק מאט את התגובה ב-3 עד 10 שניות, וזה משמעותי בצ'אט אינטראקטיבי. שלישית, איכות. ביצועי המודל יורדים בקצה החלון, אז אם אתם דוחפים את המודל ל-90% מהגג, הוא יחזיר תשובות פחות מדויקות. הכלל הבסיסי: השתמשו בחלון הקטן ביותר שמכיל את כל המידע הקריטי. אם אתם צריכים יותר, RAG בדרך כלל מספק תשובות מדויקות יותר מהכנסת הכל לחלון.
›איך לבדוק כמה טוקנים יש בטקסט שלי?
יש כמה כלים. ה-Tokenizer של OpenAI טוב למודלים של OpenAI, אבל פחות מדויק לעברית. ל-Anthropic יש Token Counter מותאם ל-Claude, ול-Gemini יש endpoint ב-API שמחזיר את מספר הטוקנים בדיוק. לכל מודל יש tokenizer שונה במקצת, אז התוצאה משתנה. בעבודה יומיומית, כלל אצבע מספיק: 1,000 מילים באנגלית הן בערך 1,300 טוקנים, 1,000 מילים בעברית הן בערך 2,000 טוקנים. אם אתם בונים אפליקציה ב-production, מומלץ לקרוא ל-tokenizer של הספק הספציפי לפני כל קריאה. זה עוזר להעריך עלויות מראש ולהימנע משגיאות "context window exceeded" בלתי צפויות.
›מתי כדאי לבחור ב-RAG במקום בחלון הקשר גדול?
כלל אצבע פשוט שאני משתמש בו: אם השאלה ספציפית ומבוססת על קטע מסוים מהמידע, RAG עדיף כמעט תמיד. אם השאלה דורשת ראייה רחבה של כל המידע ביחד (השוואה בין מסמכים, מציאת דפוסים, ניתוח חוצה-מסמך), חלון גדול עדיף. בפועל, 80% מהמשימות בארגונים שייכות לקטגוריה הראשונה. הפרש העלות הוא דרמטי: שאילתה ב-RAG עולה בערך פי 10-20 פחות מאותה שאילתה דרך חלון ענק. בנוסף, RAG נותן לכם שליטה ושקיפות: אתם רואים בדיוק איזה קטעי מידע נשלפו לתשובה, מה שמקל על debug ועל compliance. החיסרון של RAG: צריך תשתית, אינדקס וקטורי, ועדכון שוטף של הנתונים. בעבור POC או prototype, חלון גדול מהיר יותר להפעלה. בעבור production עם נפח, RAG משתלם כמעט תמיד.
›האם יש הבדל בין חלון הקשר בעברית לאנגלית?
כן, ויש שני הבדלים מהותיים שכדאי להכיר. ראשית, יחס הטוקנים שונה: אותו תוכן בעברית תופס פי 2.5 עד 3 יותר טוקנים מאשר באנגלית. מסמך של 10,000 מילים באנגלית הוא כ-13,000 טוקנים, אבל בעברית הוא 20,000-25,000. זה אומר שחלון של 200,000 מתאים ל-150,000 מילים אנגלית או רק 80,000-100,000 מילים עברית. שנית, איכות האחזור (recall) בעברית נוטה להיות נמוכה ב-5-15% מאנגלית באותו מודל, כי רוב המודלים אומנו בעיקר על טקסטים אנגליים. ב-2026, Claude ו-Gemini משתפרים משמעותית בעברית, אבל הפער עוד קיים. המסקנה: בעבודה בעברית, אל תדחפו את החלון לקצה. השאירו מרווח בטחון של 20-30% בנוסף למה שאתם משאירים באנגלית.