הדרכה
-
אימון של Llama 3-8B באמצעות JAX, Ray ו-GKE ב-Trillium
איך מבצעים אימון מבוזר של מודל Llama 3-8B ב-GKE באמצעות JAX, Ray Train ו-TPU v6e (Trillium) עם MaxText לאופטימיזציה של שינוי גודל מרובה מארחים.
-
אימון מראש של Llama 3.1-70B באמצעות אשכולות GKE ב-Ironwood
אימון מודל Llama 3.1-70B ב-TPU7x (Ironwood) באמצעות מסגרת MaxText.
-
אימון מראש של DeepSeek 3-671B באמצעות אשכולות GKE ב-Ironwood
אימון של מודל DeepSeek 3-671B ב-TPU7x באמצעות מתכונים מותאמים לארכיטקטורות של Mixture-of-Experts (MoE) בקנה מידה גדול.
-
אימון מראש של GPT OSS-120B באמצעות אשכולות GKE ב-Ironwood
אימון מודל חשיבה רציונלית GPT OSS-120B ב-TPU7x באמצעות מתכונים אופטימליים לאימון מבוזר בקנה מידה גדול.
-
אימון מראש של Qwen 3-235B באמצעות אשכולות GKE ב-Ironwood
אימון מודל Qwen 3-235B-A22B MoE ב-TPU7x באמצעות מתכונים שעברו אופטימיזציה לביצועי חשיבה רציונלית גבוהים.
-
אימון מראש של Wan 2.1-14B באמצעות אשכולות GKE ב-Ironwood
אימון מודל ליצירת וידאו Wan 2.1-14B ב-TPU7x באמצעות מתכונים אופטימליים לסינתזת וידאו עם ביצועים גבוהים.
-
אימון מראש של GPT3-175B באמצעות אשכולות GKE ב-Trillium
אימון של מודל GPT3-175B ב-TPU v6e באמצעות MaxText ומתכונים שעברו אופטימיזציה לביצועים בקנה מידה גדול וחסכוני.
-
אימון מראש של Gemma3-12B באמצעות אשכולות GKE ב-Trillium
אימון המודל Gemma3-12B ב-TPU v6e באמצעות MaxText ומתכונים מותאמים לפיתוח מודלים פתוחים עם ביצועים גבוהים.
-
אימון מראש של Llama 3.1-70B באמצעות אשכולות GKE ב-Trillium
אימון של Llama 3.1-70B ב-TPU v6e באמצעות MaxText ומתכונים אופטימליים לאימון מודלים בקנה מידה גדול עם תפוקה גבוהה.
-
אימון מראש של Llama 3.1-8B באמצעות אשכולות GKE ב-Trillium
אימון של Llama 3.1-8B באמצעות MaxText ב-TPU v6e עם המתכון המותאם הזה לאימון מקדים שניתן להרחבה ובעל ביצועים גבוהים.
-
אימון מראש של Mixtral-8x22B באמצעות אשכולות GKE ב-Trillium
אימון של Mixtral-8x22B ב-TPU v6e באמצעות MaxText לביצועים ויעילות אופטימליים.
-
אימון מראש של Mixtral-8x7B באמצעות אשכולות GKE ב-Trillium
אימון של Mixtral-8x7B באמצעות MaxText ב-TPU v6e עם תצורות אופטימליות לביצועים גבוהים של MoE ב-Google Cloud.
-
אימון מראש של DeepSeek 3-671B באמצעות אשכולות GKE ב-v5p
אימון ופריסה של מודל DeepSeek 3-671B ב-TPU v5p באמצעות MaxText לביצועים אופטימליים בקנה מידה גדול.
-
אימון מראש של GPT3-175B באמצעות אשכולות GKE ב-v5p
אימון של מודל GPT3-175B ב-TPU v5p באמצעות MaxText עם הגדרות אופטימליות לאימון מבוזר בקנה מידה גדול.
-
אימון מראש של Mixtral-8x7B באמצעות אשכולות GKE ב-v5p
אימון של Mixtral-8x7B ב-TPU v5p באמצעות MaxText עם הגדרות אופטימליות לעומסי עבודה של MoE עם ביצועים גבוהים.
-
אימון מראש של SDXL באמצעות אשכולות GKE בגרסה v5p
אימון והרחבה של Stable Diffusion XL (SDXL) ב-TPU v5p באמצעות MaxDiffusion לעומסי עבודה של AI גנרטיבי עם ביצועים גבוהים.
הסקת מסקנות
-
מילו בקשות של Llama 3.1-70B באמצעות GKE ו-vLLM ב-Trillium
פרסום מודלי LLM ב-GKE באמצעות TPU v6e ו-vLLM, עם התאמה אוטומטית אופטימלית לעומס ופרסום מודלים בביצועים גבוהים ב-Google Cloud.
-
מילוי בקשות של מודלים של LLM באמצעות GKE עם KubeRay
מילו בקשות של LLM באמצעות TPU ב-GKE עם התוסף Ray Operator ומסגרת השרת vLLM.
-
הצגת מודלים גדולים של שפה (LLM) בקוד פתוח באמצעות GKE עם Terraform
הקצאת סביבת הסקה של GKE ופריסת מודלים גדולים של שפה (LLM) בקוד פתוח באמצעות TPU וארכיטקטורת Terraform שהוגדרה מראש.
-
הצגת Stable Diffusion XL (SDXL) באמצעות GKE
איך מפעילים את Stable Diffusion XL (SDXL) ב-GKE באמצעות Cloud TPU ו-MaxDiffusion ליצירת תמונות בביצועים גבוהים.
-
מילו בקשות של GPT OSS-120B עם vLLM באמצעות אשכולות GKE ב-Ironwood
הפעלת הסקה עם ביצועים גבוהים למודלים של GPT-OSS ב-TPU7x באמצעות vLLM, כדי להשיג תפוקה אופטימלית וזמן אחזור נמוך ב-Google Cloud.
-
מילוי בקשות של Qwen3-Coder-480B באמצעות vLLM עם אשכולות GKE ב-Ironwood
להכניס לשימוש בסביבת הייצור את Qwen3-Coder-480B-A35B ב-TPU7x באמצעות vLLM ליצירת קוד והיקש אופטימליים עם תפוקה גבוהה.
-
מילו בקשות של Llama 3.1-8B עם vLLM ב-Trillium
הצגת Llama 3.1-8B ב-TPU v6e באמצעות vLLM להסקת מסקנות אופטימלית עם זמן אחזור נמוך והצגה עם תפוקה גבוהה.
-
מילוי בקשות של Qwen 3 באמצעות vLLM ב-Trillium
הצגת מודלים של Qwen 3 ב-TPU v6e באמצעות vLLM להסקת מסקנות עם ביצועים גבוהים, יכולת התאמה לעומס (scaling) וקצב העברת נתונים אופטימלי.
-
מילוי בקשות של Qwen2.5-32B באמצעות vLLM ב-Trillium
המודל Qwen2.5-32B מופעל ב-TPU v6e באמצעות vLLM כדי להסיק מסקנות בצורה אופטימלית עם תפוקה גבוהה.
-
מילוי בקשות של Qwen2.5-VL עם vLLM ב-Trillium
הצגת מודלים של שפה עם ראייה Qwen2.5-VL ב-TPU v6e באמצעות vLLM להסקת מסקנות מולטימודאלית אופטימלית עם ביצועים גבוהים.