
פרק 4: מודלים גדולים של שפה ולנגצ'יין המלך
יובל אבידני מסביר ברקע מודלי שפה גדולים וטרנספורמרים את הצורך בספריית הקוד Langchain לבניית אפליקציות מבוססות בינה מלאכותית.
בפרק מסדרת 'מדברים בינה מלאכותית' מבקש יובל אבידני לעשות סדר בכאוס של אפליקציות הבינה המלאכותית, ופותח בכך שרבים מהמיזמים מסתכמים בחיבור פשוט למודל שפה כמו צ'אט GPT ללא חידוש אמיתי. הוא מסביר מהו מודל שפה גדול, את משמעות הראשי תיבות GPT, ואת ארכיטקטורת הטרנספורמרים שמבוססת על מנגנון תשומת לב למילים מתוך מאמר של גוגל בריין מ-2017. בהמשך הוא משווה בין צ'אט GPT של OpenAI לבין ברד של גוגל ומסביר מדוע OpenAI הצליחה יותר. עיקר הדיון נסוב סביב מגבלת הזיכרון של המודלים — הטוקנים וחלון ההקשר — שמהווה את הבעיה שאליה Langchain אמור לתת מענה.
תובנות מרכזיות
- רוב המיזמים שמתהדרים בבינה מלאכותית מסתכמים בחיבור תכנותי למודל שפה קיים, ולכן בעיני משקיעים אין בהם חידוש או אלגוריתם ייחודי.
- ראשי התיבות GPT מייצגים Generative Pre-trained Transformer — מודל שאומן מראש ויודע לייצר טקסט.
- עוצמת הטרנספורמר נובעת ממנגנון תשומת הלב, היכולת לתת משקל גבוה יותר למילים מסוימות בטקסט, מתוך מאמר של גוגל בריין מ-2017.
- ההבדל בין OpenAI לגוגל הוא שגוגל עבדה עם ייצוג מספרי של מילים (embedding) בעוד OpenAI התמקדה בהבנת המשמעות, ובכך הצליחה יותר.
- מגבלת הטוקנים וחלון ההקשר היא חסם מרכזי: שיחה ארוכה או מסמך גדול דורסים את זיכרון המודל, ולכל מודל קיבולת שונה (4,000 עד 100,000 טוקנים בקלוד).
מה בעצם הבינה המלאכותית במיזם שלך? — השאלה שמציגים המשקיעים בתוכנית 'הכרישים' וחושפת שרוב הפתרונות הם רק ממשק למודל שפה קיים.