מהן התובנות המרכזיות מהפרק?

אותן אותיות בסדר שונה (listen מול silent) מקבלות אותם ערכים מספריים אך משמעות הפוכה, ולכן עדיף לקודד מילים שלמות ולא אותיות בודדות · טוקניזציה היא המרת מילים לערכים מספריים, ומילה חדשה שלא נראתה מקבלת ערך חדש בעוד מילים מוכרות שומרות על הערך שלהן · padding מיישר את אורך המשפטים על ידי מילוי באפסים כך שכל הקלטים יהיו באורך אחיד למודל · טוקן OOV (Out of Vocabulary) פותר מצב שבו המודל נתקל במילה שלא אומן עליה, ומאפשר לשמור על רצף הגיוני · ה-T ב-GPT מסמן Transformer - מודל deep learning ששונה מ-TensorFlow בכך שהוא מנסה להבין משמעות של משפטים שלמים

בינה מלאכותית עם יובל אבידני הייטק וסטארטאפים

פרק 2: chatGPT מתחת למכסה המנוע

28 במאי 20232861

עודכן: 30 ביולי 2026מאת צוות פודקאסט·ישראל

האזן לפרק

/ הפרק במספרים

פורסם	28 במאי 2023
אורך	47 דק׳
הנושא המרכזי	כיצד עובדים מודלי שפה ועיבוד שפה טבעית
קטגוריה	הייטק וסטארטאפים

ניתוח מעמיק · AI מתמלולנוצר אוטומטית מתמלול Whisper

על מה הפרק?

יובל אבידני מפרק כיצד מודלי שפה כמו ChatGPT עובדים, ובעיקר את תהליך הטוקניזציה והעיבוד המקדים של טקסט.

הפרק מסביר את מנגנון עיבוד השפה הטבעית (NLP) שמאחורי ChatGPT, תוך השוואה בין TensorFlow של גוגל ל-PyTorch של פייסבוק ולגישת OpenAI. אבידני מתאר את תהליך הטוקניזציה - המרת טקסט לערכים מספריים - ומדגים בעיית סמנטיקה שבה אותן אותיות בסדר שונה (listen מול silent) משנות משמעות, ולכן עדיף לקודד מילים שלמות ולא אותיות. הוא מסביר שלבי עיבוד מקדים נוספים: ניקוי טקסט, sequencing לשמירת רצף הגיוני, padding ליישור אורכי משפטים, וטוקן OOV לטיפול במילים לא מוכרות. כן מובהר ש-GPT הוא Generative Pretrained Transformer המנסה להבין משמעות במשפטים שלמים.

/ תובנות מרכזיות

אותן אותיות בסדר שונה (listen מול silent) מקבלות אותם ערכים מספריים אך משמעות הפוכה, ולכן עדיף לקודד מילים שלמות ולא אותיות בודדות
טוקניזציה היא המרת מילים לערכים מספריים, ומילה חדשה שלא נראתה מקבלת ערך חדש בעוד מילים מוכרות שומרות על הערך שלהן
padding מיישר את אורך המשפטים על ידי מילוי באפסים כך שכל הקלטים יהיו באורך אחיד למודל
טוקן OOV (Out of Vocabulary) פותר מצב שבו המודל נתקל במילה שלא אומן עליה, ומאפשר לשמור על רצף הגיוני
ה-T ב-GPT מסמן Transformer - מודל deep learning ששונה מ-TensorFlow בכך שהוא מנסה להבין משמעות של משפטים שלמים

#עיבוד שפה טבעית #NLP #טוקניזציה #ChatGPT #TensorFlow #טרנספורמר #padding #OOV

/ השאלה הבולטת בפרק

מהו הקסם של ChatGPT שכובש את העולם ואיך הוא עובד בפועל?

ניתוח מאת מערכת פודקאסט·ישראל, מבוסס תמלול אוטומטי של הפרק. על המתודולוגיה והמגבלות

/ שאלות נפוצות על הפרק

על מה הפרק הזה?: הפרק מסביר את מנגנון עיבוד השפה הטבעית (NLP) שמאחורי ChatGPT, תוך השוואה בין TensorFlow של גוגל ל-PyTorch של פייסבוק ולגישת OpenAI. אבידני מתאר את תהליך הטוקניזציה - המרת טקסט לערכים מספריים - ומדגים בעיית סמנטיקה שבה אותן אותיות בסדר שונה (listen מול silent) משנות משמעות, ולכן עדיף לקודד מילים שלמות ולא אותיות. הוא מסביר שלבי עיבוד מקדים נוספים: ניקוי טקסט, sequencing לשמירת רצף הגיוני, padding ליישור אורכי משפטים, וטוקן OOV לטיפול במילים לא מוכרות. כן מובהר ש-GPT הוא Generative Pretrained Transformer המנסה להבין משמעות במשפטים שלמים.
מהן התובנות המרכזיות מהפרק?: אותן אותיות בסדר שונה (listen מול silent) מקבלות אותם ערכים מספריים אך משמעות הפוכה, ולכן עדיף לקודד מילים שלמות ולא אותיות בודדות · טוקניזציה היא המרת מילים לערכים מספריים, ומילה חדשה שלא נראתה מקבלת ערך חדש בעוד מילים מוכרות שומרות על הערך שלהן · padding מיישר את אורך המשפטים על ידי מילוי באפסים כך שכל הקלטים יהיו באורך אחיד למודל · טוקן OOV (Out of Vocabulary) פותר מצב שבו המודל נתקל במילה שלא אומן עליה, ומאפשר לשמור על רצף הגיוני · ה-T ב-GPT מסמן Transformer - מודל deep learning ששונה מ-TensorFlow בכך שהוא מנסה להבין משמעות של משפטים שלמים

מתיאור הפרק

בואו נדבר על מודל שפה: איך chatGPT פועל מתחת למכסה המנוע? ולא רק chatGPT, אלא בכלל - איך מכונות מסוגלות להבין שפה, להבין משמעות של מילים, לחזות את המילים הבאות וליצור מהפכה של ממש בעולם? 🌎 🤖 🧠 בפרק זה אנסה להשיב על השאלות הללו, תוך צלילה לעומק של הטכנולוגיה הזו, התייחסות למושגים מעורפלים כמו ״סנטימנט״, ״embeddings״ ועוד.ביחד, נעבור מסלול שבו נדבר על מה זה טוקניזציה, למה היא הכרחית, איך גוגל פועלת ביחס ל OpenAI, איך אימון שפה או יצירת טקסט חדש לגמרי אפשרי, תוך בחינה של מה קורה טכנית מתחת למכסה המנוע בסיוע TensorFlow של Google.הצטרפו אלי לפרק הזה, היה לי מאוד מעניין להקליט אותו ומקווה שתהנו להאז

/ נושאים קשורים

סייבר ואבטחה

הפרק הקודםעונה 1 פרק 3: הכל על בוטים מבוססי בינה מלאכותית הפרק הבאפרק 1: מבוא לבינה מלאכותית וללמידת מכונה

כל הפרקים של בינה מלאכותית עם יובל אבידני כרטיס ביצועי התוכן של בינה מלאכותית עם יובל אבידני