
האזן לפרק
ניתוח מעמיק · AI מתמלולנוצר אוטומטית מתמלול Whisper
יובל אבידני מפרק כיצד מודלי שפה כמו ChatGPT עובדים, ובעיקר את תהליך הטוקניזציה והעיבוד המקדים של טקסט.
הפרק מסביר את מנגנון עיבוד השפה הטבעית (NLP) שמאחורי ChatGPT, תוך השוואה בין TensorFlow של גוגל ל-PyTorch של פייסבוק ולגישת OpenAI. אבידני מתאר את תהליך הטוקניזציה — המרת טקסט לערכים מספריים — ומדגים בעיית סמנטיקה שבה אותן אותיות בסדר שונה (listen מול silent) משנות משמעות, ולכן עדיף לקודד מילים שלמות ולא אותיות. הוא מסביר שלבי עיבוד מקדים נוספים: ניקוי טקסט, sequencing לשמירת רצף הגיוני, padding ליישור אורכי משפטים, וטוקן OOV לטיפול במילים לא מוכרות. כן מובהר ש-GPT הוא Generative Pretrained Transformer המנסה להבין משמעות במשפטים שלמים.
תובנות מרכזיות
- אותן אותיות בסדר שונה (listen מול silent) מקבלות אותם ערכים מספריים אך משמעות הפוכה, ולכן עדיף לקודד מילים שלמות ולא אותיות בודדות
- טוקניזציה היא המרת מילים לערכים מספריים, ומילה חדשה שלא נראתה מקבלת ערך חדש בעוד מילים מוכרות שומרות על הערך שלהן
- padding מיישר את אורך המשפטים על ידי מילוי באפסים כך שכל הקלטים יהיו באורך אחיד למודל
- טוקן OOV (Out of Vocabulary) פותר מצב שבו המודל נתקל במילה שלא אומן עליה, ומאפשר לשמור על רצף הגיוני
- ה-T ב-GPT מסמן Transformer — מודל deep learning ששונה מ-TensorFlow בכך שהוא מנסה להבין משמעות של משפטים שלמים
השאלה הבולטת בפרק
מהו הקסם של ChatGPT שכובש את העולם ואיך הוא עובד בפועל?