הקשר ארוך

מודלים רבים של Gemini כוללים חלונות הקשר גדולים של מיליון טוקנים או יותר. בעבר, מודלים גדולים של שפה (LLM) היו מוגבלים מאוד בגלל כמות הטקסט (או האסימונים) שאפשר להעביר למודל בבת אחת. חלון ההקשר הארוך של Gemini מאפשר לכם להשתמש בתרחישי שימוש ובפרדיגמות חדשות לפיתוח.

הקוד שכבר משתמשים בו במקרים כמו יצירת טקסט או קלט רב-מודלי יפעל ללא שינויים בהקשר ארוך.

במסמך הזה מפורטת סקירה כללית על מה שאפשר להשיג באמצעות מודלים עם חלונות הקשר של מיליון טוקנים או יותר. בדף הזה מוצגת סקירה כללית קצרה על חלון הקשר, ומוסבר איך מפתחים צריכים לחשוב על הקשר ארוך, מוצגים תרחישים לדוגמה שונים לשימוש בקשר ארוך בעולם האמיתי, ומוסברות דרכים לאופטימיזציה של השימוש בקשר ארוך.

בדף מודלים מפורטות מידות חלון ההקשר של מודלים ספציפיים.

מה זה חלון הקשר?

הדרך הבסיסית להשתמש במודלים של Gemini היא להעביר מידע (הקשר) למודל, שיוצר תשובה בהמשך. חלון ההקשר הוא כמו זיכרון לטווח קצר. יש כמות מוגבלת של מידע שאפשר לאחסן בזיכרון לטווח קצר של אדם, ואותו הדבר נכון לגבי מודלים גנרטיביים.

מידע נוסף על האופן שבו פועלים המודלים מפורט במדריך שלנו בנושא מודלים גנרטיביים.

תחילת העבודה עם הקשר רחב

בגרסאות קודמות של מודלים גנרטיביים אפשר היה לעבד רק 8,000 אסימונים בכל פעם. בדגמים חדשים יותר, המספר הזה גדל ל-32,000 או אפילו ל-128,000. Gemini הוא המודל הראשון שיכול לקבל מיליון טוקנים.

בפועל, מיליון אסימונים ייראו כך:

  • 50,000 שורות קוד (עם 80 תווים סטנדרטיים בכל שורה)
  • כל הודעות הטקסט ששלחתם בחמש השנים האחרונות
  • 8 רומנים באנגלית באורך ממוצע
  • תמלילים של יותר מ-200 פרקים של פודקאסטים באורך ממוצע

חלונות ההקשר המוגבלים יותר שקיימים במודלים רבים אחרים מחייב לרוב אסטרטגיות כמו השמטה שרירותית של הודעות ישנות, סיכום תוכן, שימוש ב-RAG עם מסדי נתונים של וקטורים או סינון הנחיות כדי לשמור אסימונים.

אמנם השיטות האלה עדיין מועילות בתרחישים ספציפיים, אבל חלון ההקשר הנרחב של Gemini מאפשר גישה ישירה יותר: מתן כל המידע הרלוונטי מראש. המודלים של Gemini תוכננו במיוחד עם יכולות הֶקשר רחבות, ולכן הם מציגים למידה חזקה בהקשר. לדוגמה, באמצעות חומרי הדרכה ברקע (ספר דקדוק של 500 עמודים, מילון ו-400 משפטים מקבילים), Gemini למד לתרגם מאנגלית לקלמנג (שפה פפואנית שיש לה פחות מ-200 דוברים) באיכות דומה לזו של תלמיד אנושי שמשתמש באותם חומרי הדרכה. הדוגמה הזו ממחישה את השינוי בתפיסה שמאפשר חלון ההקשר הארוך של Gemini, שמאפשר אפשרויות חדשות באמצעות למידה חזקה בהקשר.

תרחישים לדוגמה עם הקשר ארוך

רוב המודלים הגנרטיביים עדיין מתבססים על קלט טקסט, אבל משפחת המודלים של Gemini מאפשרת שימוש במגוון רחב של מודלים מולטימודיאליים. המודלים האלה יכולים להבין באופן מקורי טקסט, וידאו, אודיו ותמונות. הם מלווים ב-Gemini API שמקבל סוגי קבצים מולטימודאליים לנוחותכם.

טקסט ארוך

הטקסט הוכיח את עצמו כשכבת המודיעין שמניעה את רוב המומנטום סביב מודלים גדולים של שפה (LLM). כפי שציינו קודם, רוב המגבלות המעשיות של מודלים LLM נובעות מכך שלא הייתה להם חלון הקשר גדול מספיק לביצוע משימות מסוימות. כתוצאה מכך, התרחש אימוץ מהיר של יצירת מודלים משופרת לאחזור (RAG) ושיטות אחרות שמספקות למודלים מידע רלוונטי בהקשר באופן דינמי. עכשיו, עם חלונות הקשר גדולים יותר ויותר, יש שיטות חדשות שזמינות ומאפשרות ליישם תרחישי שימוש חדשים.

כמה תרחישי שימוש רגילים ומתפתחים להקשר ארוך מבוסס-טקסט כוללים:

  • סיכום של מאגרים גדולים של טקסט
    • אפשרויות סיכום קודמות עם מודלים קטנים יותר של הקשר היו דורשות חלון הזזה או טכניקה אחרת כדי לשמור את המצב של קטעים קודמים בזמן שאסימונים חדשים מועברים למודל.
  • שאלה ותשובה
    • בעבר, האפשרות הזו הייתה זמינה רק באמצעות RAG, בגלל הכמות המוגבלת של ההקשר והיכולת הנמוכה של המודלים לשחזר עובדות.
  • תהליכי עבודה של סוכנויות
    • טקסט הוא הבסיס של האופן שבו הסוכנויות שומרות את המצב של מה שהן עשו ומה שהן צריכות לעשות. חוסר מידע מספיק על העולם ועל היעד של הסוכנות הוא מגבלה על האמינות של הסוכנויות

למידה בהקשר עם הרבה דוגמאות היא אחת מהיכולות הייחודיות ביותר שמודלים עם הקשר ארוך מאפשרים. מחקרים הראו ששימוש בפרדיגמה הנפוצה של 'צילום יחיד' או 'צילום רב', שבה מוצגות למודל דוגמה אחת או כמה דוגמאות של משימה, והרחבת היקף הנתונים למאות, לאלפי או אפילו למאות אלפי דוגמאות, יכול להוביל ליכולות חדשות של המודל. נמצא גם שהגישה הזו עם הרבה תמונות מניבה ביצועים דומים לאלה של מודלים שהותאמו למשימה ספציפית. בתרחישי שימוש שבהם הביצועים של מודל Gemini עדיין לא מספיקים להשקה בסביבת הייצור, אפשר לנסות את הגישה של 'הרבה צילומים'. כפי שנסביר בהמשך בקטע 'אופטימיזציה של הקשר ארוך', שמירת הקשר במטמון הופכת את סוג עומס העבודה הזה של אסימוני קלט רבים לאפשרי מבחינה כלכלית, ובמקרים מסוימים גם מקצרת את זמן האחזור.

סרטון ארוך

כבר זמן רב שהשימושיות של תוכן וידאו מוגבלת בגלל חוסר הנגישות של המדיום עצמו. היה קשה לקרוא את התוכן במהירות, לרוב התמלילים לא הצליחו לתעד את הניואנסים של הסרטון, ורוב הכלים לא מעבדים תמונה, טקסט ואודיו יחד. ב-Gemini, היכולות של טקסט עם הקשר ארוך מתרגמות ליכולת להסיק מסקנות ולענות על שאלות לגבי קלט מולטי-מודאלי, עם ביצועים עקביים.

תרחישים נפוצים ומתפתחים לדוגמה לשימוש בסרטונים ארוכים עם הקשר כוללים:

  • פרסום שאלות ותשובות בסרטונים
  • זיכרון וידאו, כפי שמוצג ב-Project Astra של Google
  • הוספת כתוביות לסרטונים
  • מערכות המלצות לסרטונים, על ידי העשרת המטא-נתונים הקיימים בהבנה חדשה של מידע ממקורות שונים
  • התאמה אישית של סרטונים, על ידי בדיקה של מאגר נתונים ומטא-נתונים של סרטונים משויכים, ולאחר מכן הסרה של חלקים מהסרטונים שלא רלוונטיים לצופה
  • ניהול תוכן בסרטונים
  • עיבוד וידאו בזמן אמת

כשעובדים עם סרטונים, חשוב להביא בחשבון את אופן עיבוד הסרטונים לאסימונים, שמשפיע על החיובים ועל מגבלות השימוש. מידע נוסף על הצגת הנחיות באמצעות קובצי וידאו זמין במדריך להנחיות.

אודיו ארוך

המודלים של Gemini היו המודלים הגדולים הראשונים של שפה (LLM) עם מולטי-מודאליות טבעית שיכולים להבין אודיו. בעבר, תהליך העבודה הרגיל של המפתחים כלל שילוב של כמה מודלים ספציפיים לדומיין, כמו מודל של דיבור לטקסט ומודל של טקסט לטקסט, כדי לעבד אודיו. כתוצאה מכך, זמן האחזור הנוסף שנדרש לביצוע מספר בקשות הלוך ושוב גרם לירידה בביצועים, שנובעת בדרך כלל מארכיטקטורות לא מחוברות של הגדרת כמה מודלים.

כמה תרחישי שימוש סטנדרטיים ומתפתחים להקשר אודיו:

  • תמלול ותרגום בזמן אמת
  • פודקאסט או סרטון עם שאלות ותשובות
  • תמלול וסיכום של פגישות
  • עוזרים קוליים

מידע נוסף על הנחיות באמצעות קובצי אודיו זמין במדריך להנחיות.

אופטימיזציות של הקשר ארוך

האופטימיזציה הראשית כשעובדים עם הקשר ארוך ועם המודלים של Gemini היא להשתמש באחסון במטמון של הקשר. בנוסף לכך שלא ניתן היה לעבד הרבה אסימונים בבקשה אחת, האילוץ העיקרי השני היה העלות. אם יש לכם אפליקציה מסוג 'צ'אט עם הנתונים שלך' שבה משתמש מעלה 10 קובצי PDF, סרטון ומסמכי עבודה מסוימים, בעבר הייתם צריכים להשתמש בכלי או מסגרת מורכבים יותר של יצירת נתונים משופרים לאחזור (RAG) כדי לעבד את הבקשות האלה ולשלם סכום משמעותי על אסימונים שהועבר לחלון ההקשר. מעכשיו תוכלו לשמור במטמון את הקבצים שהמשתמשים מעלים ולשלם על האחסון שלהם לפי שעה. לדוגמה, העלות של קלט ופלט לכל בקשה ב-Gemini Flash נמוכה פי 4 בערך מהעלות הרגילה של קלט ופלט, כך שאם המשתמש משתמש בצ'אט עם הנתונים שלו מספיק, אתם יכולים לחסוך הרבה כסף בתור מפתחים.

מגבלות על חלון הקשר ארוך

בקטעים שונים במדריך הזה דיברנו על האופן שבו מודלים של Gemini משיגים ביצועים גבוהים במגוון בדיקות אחזור של 'מחט בערימה'. הבדיקות האלה מבוססות על ההגדרה הבסיסית ביותר, שבה אתם מחפשים מחט אחת. במקרים שבהם יש לכם כמה 'מחטים' או פריטים ספציפיים של מידע שאתם מחפשים, הביצועים של המודל לא יהיו מדויקים באותה מידה. הביצועים עשויים להשתנות במידה רבה בהתאם להקשר. חשוב להביא את הנושא הזה בחשבון, כי יש פשרה מובנית בין אחזור המידע הנכון לבין העלות. אפשר לקבל כ-99% בשאילתה אחת, אבל צריך לשלם את עלות אסימון הקלט בכל פעם ששולחים את השאילתה הזו. לכן, כדי לאחזר 100 פרטי מידע, אם אתם צריכים ביצועים של 99%, סביר להניח שתצטרכו לשלוח 100 בקשות. זו דוגמה טובה למקרה שבו שמירת הקשר במטמון יכולה להפחית באופן משמעותי את העלות המשויכת לשימוש במודלים של Gemini, תוך שמירה על ביצועים גבוהים.

שאלות נפוצות

איפה הכי טוב להציב את השאילתה שלי בחלון ההקשר?

ברוב המקרים, במיוחד אם ההקשר הכולל ארוך, הביצועים של המודל יהיו טובים יותר אם תוסיפו את השאילתה או השאלה בסוף ההנחיה (אחרי כל ההקשרים האחרים).

האם הביצועים של המודל יושפעו אם אוסיף עוד אסימונים לשאילתה?

באופן כללי, אם אתם לא צריכים להעביר אסימונים למודל, מומלץ להימנע מהעברה שלהם. עם זאת, אם יש לכם כמות גדולה של אסימונים עם מידע מסוים ואתם רוצים לשאול שאלות לגבי המידע הזה, המודל מסוגל לחלץ את המידע הזה בצורה יעילה מאוד (במקרים רבים, דיוק של עד 99%).

איך אפשר להפחית את העלות באמצעות שאילתות עם הקשר ארוך?

אם יש לכם קבוצה דומה של אסימונים או הקשר שרוצים לעשות בהם שימוש חוזר פעמים רבות, אחסון ב-cache של הקשר יכול לעזור לכם להפחית את העלויות שמשויכות לשליחת שאלות לגבי המידע הזה.

האם אורך ההקשר משפיע על זמן האחזור של המודל?

בכל בקשה יש זמן אחזור קבוע מסוים, ללא קשר לגודל שלה, אבל בדרך כלל לשאילתות ארוכות יותר יהיה זמן אחזור ארוך יותר (זמן לקבלת האסימון הראשון).