חיזוי המילה הבאה: הרעיון שמאחורי כל מודל שפה
משחק ההשלמה
דמיינו שאתם משחקים משחק פשוט. מישהו אומר לכם: "היום בבוקר שתיתי כוס ____". מה המילה שהכי סביר שתבוא? כנראה "קפה". אולי "תה". בטח לא "מברג" או "שולחן".
מודל שפה גדול (Large Language Model, בקיצור LLM) עושה בדיוק את זה. הוא לא "חושב", לא "מבין", ולא "יודע". הוא מנבא מה המילה הבאה הכי סבירה, בהתבסס על כל המילים שהגיעו לפניה.
איך זה עובד בפועל?
בשלב האימון, המודל קרא טריליוני מילים מהאינטרנט: ויקיפדיה, ספרים, פורומים, מאמרים מדעיים, קוד תכנות, ועוד. מכל הטקסט הזה הוא למד דפוסים סטטיסטיים. לא את המשמעות של המילים, אלא את ההסתברות שמילה מסוימת תופיע אחרי רצף מסוים של מילים.
כשאתם כותבים "תכתוב לי מייל ללקוח שמבטל הזמנה", המודל לא חושב "אוקיי, צריך להיות אמפתי, מקצועי, ולנסות לשמר את הלקוח". מה שהוא עושה: הוא מחשב הסתברויות. בהינתן כל הטקסטים שהוא קרא, מה המילה הראשונה הכי סבירה? נניח "שלום". עכשיו, בהינתן ההנחיה + "שלום", מה המילה הבאה? נניח "רב". וכך הלאה, מילה אחרי מילה, עד שנוצר טקסט שלם.
למה זה עובד כל כך טוב?
כי כמות הנתונים עצומה. כשאתם קוראים מיליארדי דפי טקסט, אתם לומדים דפוסים מאוד עדינים. המודל "יודע" שאחרי "שלום רב," במייל עסקי בעברית בדרך כלל מגיע שם הנמען. הוא "יודע" שבמייל ביטול הזמנה הטון צריך להיות רגיש. הוא לא מבין למה, אבל הוא ראה מספיק דוגמאות כדי לשחזר את הדפוס במדויק.
חשבו על זה ככה: ילד שגדל בסין ושומע סינית כל היום ילמד לדבר סינית בצורה מושלמת, גם בלי שמישהו ילמד אותו דקדוק. הוא פשוט ספג מספיק דפוסים. LLM עושה את אותו הדבר, רק עם הרבה יותר נתונים ובמהירות הרבה יותר גבוהה.
מה זה "טוקן"?
שמתם לב שכתבנו "חיזוי המילה הבאה" אבל המונח הטכני הוא "Next Token Prediction"? טוקן הוא לא בדיוק מילה. הוא יחידת טקסט שהמודל עובד איתה. בעברית, מילה ארוכה כמו "שהתחלתם" יכולה להיות 2-3 טוקנים. בלועזית, "understanding" זה בדרך כלל 2 טוקנים: "understand" + "ing".
למה זה חשוב? כי כשמשלמים על שימוש ב-AI, משלמים לפי טוקנים. וכשמודד את "חלון ההקשר" (נגיע לזה בעוד רגע), מודדים בטוקנים. בעברית, אגב, צריך יותר טוקנים לכל משפט מאשר באנגלית, ולכן שיחה בעברית עולה קצת יותר ותופסת יותר מקום בחלון ההקשר.
חלון ההקשר: הזיכרון לטווח קצר של AI
האנלוגיה: שולחן עבודה, לא ארון
חלון ההקשר (Context Window) הוא כמות המידע שהמודל יכול "להחזיק בראש" בזמן נתון. חשבו על זה כמו שולחן עבודה: יש לכם שולחן בגודל מסוים, ואתם יכולים לפרוס עליו מספר מוגבל של דפים. ככל שהשולחן גדול יותר, אתם יכולים לעבוד עם יותר מידע בו-זמנית.
כשאתם פותחים שיחה חדשה עם ChatGPT או Claude, השולחן ריק. כל הודעה שאתם כותבים, וכל תשובה שהמודל נותן, מתווספת לשולחן. בשלב מסוים השולחן מתמלא, ואז המודל מתחיל "לשכוח" את תחילת השיחה.
מספרים: מה גדול ומה קטן?
ב-2026, גדלי חלונות ההקשר נראים ככה:
- GPT-4o - 128,000 טוקנים (בערך 300 עמודי טקסט)
- Claude Sonnet/Opus - 200,000 טוקנים (בערך 500 עמודי טקסט)
- Gemini 2.5 Pro - עד 1,000,000 טוקנים (בערך 2,500 עמודים)
זה נשמע המון, אבל בפועל זה מתמלא מהר. אם אתם מעלים מסמך ארוך, שולחים כמה הודעות, ומקבלים תשובות מפורטות, חלון של 128K טוקנים יכול להתמלא תוך שיחה אחת אינטנסיבית.
למה זה חשוב לכם?
ההשלכה המעשית: תנו למודל את כל ההקשר הרלוונטי. רוצים שהוא יכתוב לכם מייל ללקוח? אל תגידו רק "תכתוב מייל ללקוח". ספרו לו מי הלקוח, מה ההיסטוריה, מה הטון שאתם רוצים, ומה המטרה. ככל שההקשר עשיר יותר, התוצאה מדויקת יותר.
עוד טיפ: אם שיחה נמשכת הרבה זמן והתשובות מתחילות להיות פחות טובות, פתחו שיחה חדשה. השולחן כנראה התמלא, והמודל "שכח" חלק מההוראות הראשוניות שלכם.