איך התפתח החיפוש בגוגל? ממפת קישורים לחיפוש מבוסס בינה מלאכותית - חלק -א
במשך 25 שנה גוגל עברה תהליך שאין כמעט דומה לו בתחום טכנולוגיית המידע. בתחילת הדרך היא הציעה ממשק פשוט מאוד, שורת טקסט, כמה הקלקות ותקווה למצוא תשובה. אבל אותה קופסה לבנה וצנועה הפכה בהדרגה לאחת המערכות המורכבות ביותר שנבנו אי פעם, מערכת שמסוגלת לקרוא שפה אנושית על כל גווניה, להבין הקשרים, לפרש כוונות, לראות תמונות, לשמוע קול, להבין מקום וזמן ולנסות להבין אותנו, המשתמשים, בצורה עמוקה, טבעית ומדויקת יותר מאי פעם.
ולצד ההתפתחות הזו היה גם ממד אישי. גוגל נכנסה לעולם ב-98, ושאבה אותי פנימה. היא סקרנה, חידשה והביאה משב רוח יוצא דופן שהניע אותי להעמיק, ללמוד ולהבין את המרחב הדיגיטלי מנקודות מבט שונות. חלק גדול ממה שאני יודעת היום נבנה בשנים שבהן גוגל עצמה התעצבה, ואת זה אני לא אשכח לה לעולם. לאב יו גוגל.
נושאים עיקריים:
- גוגל כרשת קישורים: מהו מדד ה -PAGE RANK?
- גוגל: על עדכוני אלגורתמים, חיות ומה שביניהם…מה כלל כל עדכון אלגורתמי בגוגל?
- מהפכת המובייל והחיפוש הקולי: מה גוגל דרשה מבלעי האתרים? ומה היה העונש לאתרים לא מותאמים לניידים?
- מודל השפה הטבעי BERT: איך החיפוש בגוגל התחיל להבין משמעות?
- החיפוש החזותי והרב מודלי: כשטקסט ותמונה הופכים לשפה אחת: איך החיפוש בגוגל השתפר?
גוגל כרשת קישורים: מדד ה PAGE RANK
כשגוגל הושקה בשנת 1998, האינטרנט נראה כמו אוסף עצום של עמודים מפוזרים ללא מבנה ברור. מנועי החיפוש באותה התקופה הסתמכו בעיקר על התאמת מילים פשוטה, לעיתים שטחית, מה שהוביל להצפת תוצאות חלשות, מניפולציות ועמודים שכל קשר בינם לבין שאלת המשתמש היה מקרי בלבד.
בשנת 2009, מצאתי (מבין היחידים בישראל) את הקובץ איך גוגל מדרגת אתרים… תרגמתי אותו לסטודנטים (קרוב ל 100 עמודים) והבנתי, שגוגל עובדת קשה מאוד כדי לזהות סמכות, איכות ותקינות של אתרים.
כאן נכנס הרעיון ששינה את התמונה: PageRank. ההבנה המרכזית הייתה שקישור בין אתרים הוא לא רק מעבר טכני, אלא הבעת אמון. אם אתר מכובד מפנה לאחר, אפשר להניח שקיים קשר של משמעות או חשיבות.
האלגוריתם זיהה מספר עקרונות מהותיים:
- קישורים שונים אינם שווים בערכם
- יש דפים שמחזיקים בתפקיד מרכזי בתוך הרשת
- האינטרנט מתנהג כמו רשת חברתית של ידע, עם מרכזי כוח ואזורים שקטים יותר
המהפכה של גוגל הייתה לא רק טכנולוגית אלא כמעט פילוסופית. לראשונה מנוע חיפוש דירג מידע על בסיס מבנה חברתי של המלצות, ולא רק על בסיס הופעת מילים.
החיפוש בשלב הזה היה מהיר, ליניארי ומבוסס מתמטיקה מתקדמת. אך הוא עדיין היה רחוק מעיבוד שפה טבעית או מהבנה אנושית אמיתית. זה היה הניצוץ הראשון, אך לא האש.
אחת הדוגמאות שהייתי מציגה לסטודנטים זה אדם סנדלר… בימים ההם… גוגל לא יהצליחה לזהות שמדובר בשחקן, והציגה תוצאות של אתרים שמציגים מידע עם המילים סנדלר/אדם…. בקיצור… התוצאות היו סנדלרים ברחוב אדם וכו'….
גוגל: על עדכוני אלגורתמים, חיות ומה שביניהם...
בתחילת שנות האלפיים האינטרנט צמח בקצב שלא נראתה כמותו. אתרים חדשים נוספו מדי יום, התוכן ברשת גדל במהירות, אבל לא תמיד נשמרה איכות. לצד מידע אמיתי ומועיל הופיעו גם דפים שטחיים, עמודים שנוצרו באופן אוטומטי, חוות קישורים ואתרי ספאם שהוסיפו רעש ופגעו ביכולת למצוא מקורות מהימנים.
גוגל זיהתה שהמודל הראשוני, שהתבסס בעיקר על ניתוח קישורים, כבר לא מספק מענה לעולם שהולך ונעשה מורכב יותר. היה צורך במנגנון שמסוגל להבחין בין תוכן שנוצר עבור המשתמש לבין תוכן שנועד להטעות את המערכת.
כאן התחיל מסע העדכונים ששינה את חוקי המשחק והגדיר מחדש מהי איכות ברשת.
במשך שנים לימדתי על עדכוני האלגורתמים וההשפעה על התוכן והדירוגים, אחד הנושאים שהכי אהבתי ללמד. אחרי כל עדכון, הרגשתי שגוגל מגלחת עשרות אתרים לא ראויים להופיע במיקומים הראשונים.
בואו נתחיל:
- עדכון פנדה: Panda (2011)
עדכון שבחן את איכות התוכן עצמו. לא כמות מילים ולא צפיפות ביטויים, אלא עומק, מבנה, תרומה ממשית לקורא ורמת אמינות. אתרים שהתבססו על תוכן דל או מועתק איבדו נוכחות משמעותית בתוצאות.
- עדכון פינגווין Penguin (2012):
עדכון שהתמקד בטיב הקישורים. קישור נחשב הבעת אמון, אך רק כאשר הוא מגיע מהקשר אמיתי. האלגוריתם זיהה קישורים מלאכותיים, מערכות שבנויות על מניפולציות ודפוסי הפניה שאינם טבעיים, ונתן להם משקל נמוך או שלילי.
- עדכון המינגבירד, יונק הדבש – Hummingbird (2013)
שינוי ארכיטקטוני רחב. גוגל החלה לנתח שאילתות בצורה רחבה יותר, להבין את כוונת המשתמש ולא רק להתאים מילות מפתח. המשמעות היתה שתוכן שנכתב בצורה טבעית ובהירה זוהה כמתאים יותר, גם אם לא הכיל את הביטוי המדויק.
- ראנק בריין RankBrain (2015):
עדכון אלגוריתמי שנוסף לליבת החיפוש. להבדיל מהעדכונים הקודמים שהתבססו על חוקים ברורים, הראנק בריין בגוגל הוסיף שכבת למידת מכונה שמסוגלת לפרש שאילתות בצורה גמישה יותר. RankBrain נועד להתמודד עם שאלות מורכבות או נדירות, לזהות קשרים בין מילים ולהעריך משמעות גם כאשר הניסוח אינו מדויק. זו הייתה הפעם הראשונה שבה גוגל שילבה יכולת למידה סתגלנית בתוך תהליך הדירוג, מה שאפשר למערכת להבין כוונה באופן מדויק יותר ולא רק להתאים ביטויים.
בנקודה הזו החיפוש כבר לא פעל כמנגנון טקסטואלי בסיסי. הוא התחיל לזהות את משמעות השאלה ולא רק את המילים המרכיבות אותה. במקום להתמקד בדפים שחוזרים על ביטוי מסוים, גוגל חיפשה איזה דף אינטרנט מציג את הרעיון בצורה ברורה ומועילה, שלב משמעותי בדרך להבנת שפה טבעית, גם אם עדיין במסגרת טכנולוגית מצומצמת יחסית.
מהפכת המובייל והחיפוש הקולי: חיפוש טבעי, זמין ומותאם למשתמש
המעבר לטלפונים חכמים בתחילת העשור הקודם (2014-2010) שינה משמעותית את הדרך שבה משתמשים חיפשו מידע. החיפוש כבר לא התבצע מול מחשב שולחני עם מסך גדול ומקלדת, אלא דרך מכשיר נייד שמלווה את המשתמש בכל רגע. הגלישה נעשתה דינמית, קצרה ומבוססת על צרכים מיידיים. האתגר העיקרי היה התאמת חוויית החיפוש למציאות שבה רוב הפעילות הדיגיטלית מתרחשת מהטלפון.
בנקודה הזו גוגל הבינה שהרבה אתרים לא מותאמים לניידים, מה שהקשה על המשתמשים לקבל מידע באופן ברור ונגיש. כדי לטפל בזה גוגל יצרה תהליך דו־שלבי, שהתחיל בהתראה ובהכוונה והסתיים בעדכון דירוג רשמי.
- שלב ראשון: 2014: אזהרות וסימון אתרים מותאמים: ב־2014 גוגל ביצעה צעדים מקדימים שנועדו להעלות מודעות ולעודד בעלי אתרים לבצע התאמות: שליחת אזהרות לאתרים שאינם מותאמים לנייד, הצגת תווית Mobile-Friendly בתוצאות החיפוש, הדגשה שהשימושיות בנייד תהיה גורם מרכזי בנראות עתידית. השלב הזה לא שינה דירוגים בפועל, אלא שימש כתשתית לשינוי רחב יותר.
- שלב שני 2015: Mobile-Friendly Update (“Mobilegeddon”)
ב־21 באפריל 2015 הושק העדכון הרשמי, שהשפיע על הדירוג בתוצאות החיפוש במובייל.
העדכון התמקד בעיקר ב: קריאות טקסט ללא צורך בהגדלת טקסט, התאמת רוחב הדף למסך טלפון, מרווח כפתורים וממשק נוח למגע, טעינה מהירה וחוויית שימוש מינימלית בשיבושים.
אתרים שלא עמדו בדרישות איבדו נראות בחיפושים מהנייד. גוגל הבהירה שהמובייל הוא כבר לא אפשרות נוספת, אלא ברירת המחדל.
במקביל לשינוי זה, התפתחה מהפכת החיפוש הקולי. משתמשים עברו מניסוחי חיפוש קצרים כמו “טיסות לונדון מרץ” לניסוחים טבעיים יותר, למשל “מתי יש טיסה נוחה ללונדון בסוף מרץ?”. גוגל נדרשה להבין משפטים דיבוריים, ניסוחים חלקיים והקשרים שמגיעים משיחה ולא מכתיבה. החיפוש הפך לתהליך שיחתי ולא רק טקסטואלי.
השילוב בין התאמה למובייל והבנת הדיבור שינה את אופי החיפוש. שלב שבנה תשתית ברורה לקראת ההתפתחויות המשמעותיות יותר בהבנת שפה טבעית שיגיעו בהמשך.
מודל השפה הטבעי BERT: החיפוש מתחיל להבין משמעות
עד שנת 2019 גוגל כבר עשתה צעדים משמעותיים להבנת שפה טבעית. בשנת 2013 הוצג עדכון Hummingbird שסימן את תחילת המעבר מגישה של התאמת מונחים להבנה סמנטית רחבה יותר, שמטרתה לזהות את הכוונה שמסתתרת מאחורי השאילתה ולא רק את המילים שמופיעות בה.
בשנת 2015 נוסף RankBrain שהעמיק את יכולת הפרשנות באמצעות למידת מכונה. הוא אפשר למערכת לזהות קשרים בין ביטויים, להבין שאילתות נדירות ולפענח ניסוחים שאינם מדויקים. שני השלבים הללו יצרו בסיס משמעותי, אך עדיין לא איפשרו למנוע החיפוש לפרש משפט שלם כיחידה אחת בעלת משמעות מלאה.
בנקודה זו נכנס BERT, מודל עיבוד שפה טבעית שציין קפיצה טכנולוגית מהותית.
BERT הוא ראשי התיבות של Bidirectional Encoder Representations from Transformers, מודל שמסוגל לקרוא טקסט בשני כיוונים בו זמנית ולפרש את משמעות כל מילה על פי ההקשר שבו היא מופיעה. במקום לנתח ביטויים בנפרד, המערכת החלה להבין את המשפט כולו ואת היחסים שמתקיימים בין חלקיו. זהו תהליך שמזכיר את אופן הקריאה האנושית, שבו משמעות נוצרת מהקשר רחב ולא מרצף של מילים בודדות.
השיפור היה בולט במיוחד בשאלות שבהן מילים קטנות משנות את משמעות המשפט. מילים כמו עם, ללא, בין, על, לפני או לפי קיבלו התייחסות מדויקת יותר. גוגל יכלה להבחין האם המשתמש מבקש להשוות, להבין, לחפש פתרון או לקבל הבהרה. במקום להתמקד במונחים מרכזיים בלבד, המערכת למדה לפרש את המבנה הלשוני כולו ולזהות את הכוונה שעומדת מאחורי השאילתה.
השפעת השינוי הורגשה מיד בחוויית המשתמש. חיפושים טבעיים, ניסוחים יומיומיים ושאלות ארוכות זכו לתשובות מדויקות ורלוונטיות יותר. גוגל הצליחה להתמודד עם שאילתות שלא מנוסחות טוב, להבין משמעות במשפטים מורכבים ולזהות את הצורך האמיתי של המשתמש. זה היה השלב שבו החיפוש עבר מתהליך טכני המבוסס על התאמות טקסטואליות להבנה סמנטית שנשענת על משמעות.
בנקודה זו יכולת הפרשנות הסמנטית של גוגל הגיעה לבשלות. Hummingbird יצר את התשתית להבנת כוונה, RankBrain הוסיף יכולת למידה ודפוסי פרשנות, ו־BERT העניק למערכת יכולת להבין שפה כמעט ברמה אנושית. מנוע החיפוש הפך למערכת שמסוגלת לפרש טקסט באופן טבעי, והניח את הבסיס להתפתחות הבאה בחיפוש מבוסס הקשר, חיפוש רב מודלי וחיפוש גנרטיבי מתקדם.
מודל השפה הטבעי BERT: החיפוש מתחיל להבין משמעות
עד שנת 2019 גוגל כבר עשתה צעדים משמעותיים להבנת שפה טבעית. בשנת 2013 הוצג עדכון Hummingbird שסימן את תחילת המעבר מגישה של התאמת מונחים להבנה סמנטית רחבה יותר, שמטרתה לזהות את הכוונה שמסתתרת מאחורי השאילתה ולא רק את המילים שמופיעות בה.
בשנת 2015 נוסף RankBrain שהעמיק את יכולת הפרשנות באמצעות למידת מכונה. הוא אפשר למערכת לזהות קשרים בין ביטויים, להבין שאילתות נדירות ולפענח ניסוחים שאינם מדויקים. שני השלבים הללו יצרו בסיס משמעותי, אך עדיין לא איפשרו למנוע החיפוש לפרש משפט שלם כיחידה אחת בעלת משמעות מלאה.
בנקודה זו נכנס BERT, מודל עיבוד שפה טבעית שציין קפיצה טכנולוגית מהותית.
BERT הוא ראשי התיבות של Bidirectional Encoder Representations from Transformers, מודל שמסוגל לקרוא טקסט בשני כיוונים בו זמנית ולפרש את משמעות כל מילה על פי ההקשר שבו היא מופיעה. במקום לנתח ביטויים בנפרד, המערכת החלה להבין את המשפט כולו ואת היחסים שמתקיימים בין חלקיו. זהו תהליך שמזכיר את אופן הקריאה האנושית, שבו משמעות נוצרת מהקשר רחב ולא מרצף של מילים בודדות.
השיפור היה בולט במיוחד בשאלות שבהן מילים קטנות משנות את משמעות המשפט. מילים כמו עם, ללא, בין, על, לפני או לפי קיבלו התייחסות מדויקת יותר. גוגל יכלה להבחין האם המשתמש מבקש להשוות, להבין, לחפש פתרון או לקבל הבהרה. במקום להתמקד במונחים מרכזיים בלבד, המערכת למדה לפרש את המבנה הלשוני כולו ולזהות את הכוונה שעומדת מאחורי השאילתה.
השפעת השינוי הורגשה מיד בחוויית המשתמש. חיפושים טבעיים, ניסוחים יומיומיים ושאלות ארוכות זכו לתשובות מדויקות ורלוונטיות יותר. גוגל הצליחה להתמודד עם שאילתות שלא מנוסחות טוב, להבין משמעות במשפטים מורכבים ולזהות את הצורך האמיתי של המשתמש. זה היה השלב שבו החיפוש עבר מתהליך טכני המבוסס על התאמות טקסטואליות להבנה סמנטית שנשענת על משמעות.
בנקודה זו יכולת הפרשנות הסמנטית של גוגל הגיעה לבשלות. Hummingbird יצר את התשתית להבנת כוונה, RankBrain הוסיף יכולת למידה ודפוסי פרשנות, ו־BERT העניק למערכת יכולת להבין שפה כמעט ברמה אנושית. מנוע החיפוש הפך למערכת שמסוגלת לפרש טקסט באופן טבעי, והניח את הבסיס להתפתחות הבאה בחיפוש מבוסס הקשר, חיפוש רב מודלי וחיפוש גנרטיבי מתקדם.
החיפוש החזותי והרב מודלי: כשטקסט ותמונה הופכים לשפה אחת
עד אמצע העשור הקודם החיפוש בגוגל היה מבוסס בעיקר על טקסט, מה שלא תאם את הראיה הויזואלית של המשתמשים, ולכן גוגל החליטה להכניס ליבת ראייה ממוחשבת לתוך החיפוש.
Google Lens: נקודת המפנה הראשונה
Google Lens סימן את הרגע שבו החיפוש הפסיק להסתמך על תיאור מילולי בלבד. בין התכונות הבולטות:
- זיהוי עצמים, מוצרים, חיות, צמחים ומקומות
- תרגום טקסט מתוך תמונה בזמן אמת
- מציאת מידע על פריטים שלא פשוט לתאר במילים
- ביצוע פעולות מורכבות כמו זיהוי פריטים דומים או חיפוש מידע מתוך מסמך מצולם
זה היה המעבר הראשון מחיפוש טקסטואלי לחיפוש שמבין את העולם דרך מצלמה.
חיפוש רב מודלי: שילוב של טקסט ותמונה
השינוי אחרי, היה היכולת לשלב מידע חזותי ושאלות טקסטואליות באותה שאילתה.
לדוגמה: צילום מוצר ושאלה:
- "מצא דגם דומה אבל בזול יותר".
- צילום פריט עיצוב ושאלה: "איזו ספה תתאים לזה?"
- צילום פרח ושאלה: "איך מטפלים בצמח הזה?"
כאן החיפוש כבר לא מתרגם תמונה למילה, אלא מפרש קשר בין שני סוגי מידע, מה שרואים ומה ששואלים.
MUM: הבינה הרב מודלית שמחברת הכול
MUM היא טכנולוגיה שמסוגלת להבין טקסט ותמונות יחד וליצור תשובה המבוססת על ההקשר הרחב.
- ניתוח תמונה והבנת המשמעות שבה
- שילוב טקסט, תמונה וידע חיצוני
- הסקת מסקנות ברמת עומק גבוהה
- הבנה של שאילתות מורכבות מבוססות הקשר
זה החיבור העמוק ביותר שנוצר בין עיבוד שפה טבעית לבין ראייה ממוחשבת בחיפוש. מה זה נתן למשתמשים? התוצאה הייתה חוויית חיפוש הרבה יותר טבעית:
- אפשרות “להצביע” במקום לתאר
- חיפוש מהיר עבור פריטים ללא שם ברור
- יכולת להבין הקשר מתוך תמונה ולא רק מתוך טקסט
- התאמה טובה יותר למציאות שבה רוב המידע שאנשים צורכים הוא חזותי
הרב מודליות הפכה את החיפוש לכלי שמרגיש קרוב לשימוש האנושי היומיומי, לא עוד פעולה טכנית, אלא אינטראקציה טבעית עם מידע.
10 שאלות ותשובות על שינויי האלגורתמים בחיפוש בגוגל
PageRank שינה את הדרך שבה אמינות נמדדת ברשת. הוא לא בחן מילים, אלא קשרים חברתיים בין אתרים. במקום לראות את האינטרנט כאוסף עמודים, הוא ראה אותו כמערכת המלצות. זה היה מעבר מחשיבה טכנית לחשיבה המבוססת על אמון.
המודל היה פגיע למניפולציות. בעלי אתרים יכלו ליצור רשתות קישורים מלאכותיות, לקנות קישורים או לייצר מערכות שמדמות “אמון”. זה יצר בועה של תוכן חלש שמתמקם גבוה רק בזכות קישורים ולא בזכות ערך.
Panda אילץ את גוגל להגדיר מהו תוכן איכותי מנקודת מבט אנושית. הוא התמודד לא עם טכני אלא עם מהות: עומק, אמינות, רצף, תרומה. זו פעם ראשונה שגוגל ניסתה להפעיל שיפוט אנושי באמצעות אלגוריתמים.
לפני Penguin כמעט כל קישור שימש “הצבעת אמון”. העדכון הזה הפריד בין אמון אמיתי לאמינות מזויפת. הוא הוריד משקל לקישורים מניפולטיביים והחזיר כוח לקישורים טבעיים שמגיעים מתוך הקשר אמיתי.
Hummingbird היה הניצוץ הסמנטי הראשון. הוא לא התעסק רק במילה עצמה, אלא במה שהמשתמש התכוון לשאול. זו הייתה תחילת ההבנה של כוונה, תחילת המעבר מהתאמת ביטויים להבנת משמעות.
RankBrain למד לזהות תבניות מחשבה ולא רק צירופי מילים. כשמשתמש ניסח שאלה לא מוכרת, המערכת יכלה “לנחש” את הכוונה מתוך דפוסים דומים. זה הפך את החיפוש לדינמי ומתפתח במקום סטטי.ד
במובייל רלוונטיות אינה רק התוכן הנכון, אלא גם חוויית השימוש: קריאות, גודל טקסט, זמן טעינה ותצוגה נקייה. גוגל הבינה שהמידע הטוב ביותר חסר ערך אם אי אפשר להשתמש בו בנייד. לכן דרישות המובייל הפכו לפקטור דירוג מרכזי.
אנשים מדברים אחרת משהם כותבים. החיפוש הקולי הפך שאילתות ממשפטים מקוצרים לניסוחים טבעיים, עמומים ומלאי הקשר. גוגל נדרשה להבין “שפה מדוברת” לא שפה טכנית.
BERT מנתח משפטים משני הכיוונים בו זמנית. הוא מבין מילה לפי ההקשר שלפניה ואחריה. כך הוא מצליח לפרש יחסי משמעות, לזהות התכוונות ולקרוא משפט כמכלול כמו קורא אנושי.
המעבר לחיפוש חזותי ורב מודלי מאפשר “להראות” במקום “לתאר”. המשתמש כבר לא חייב למצוא מילים מדויקות. הוא יכול לצלם, לשאול, לשלב בין טקסט לתמונה ולקבל תוצאה מדויקת. החיפוש הופך טבעי יותר, אינטואיטיבי יותר ומבוסס על מציאות ולא על טקסט בלבד.
לסיכום: איך השתנה החיפוש בגוגל - חלק א'
בחלק הראשון של המאמר, תיארתי את ההתפתחות המוקדמת של מנוע החיפוש בגוגל: המעבר מהתאמת מילים להבנת משמעות, שהכל התחיל עם PageRank, שהפך קישורים לסמן אמון ויצר סדר ראשוני ברשת. עם הזמן, כשהאינטרנט התמלא בתוכן חלש ובמניפולציות, גוגל עברה לעדכוני אלגוריתמים: Panda למד לזהות איכות, Penguin חשף קישורים מלאכותיים, ו-Hummingbird החל לפרש כוונה במקום לספור מילים.
RankBrain העמיק את יכולת ההבנה באמצעות למידת מכונה, ומאותו רגע החיפוש החל ללמוד ולהסתגל. הכניסה של המובייל והחיפוש הקולי דרשה הבנה של שפה טבעית, ניסוחים יומיומיים ורצף מחשבה. השלב המשמעותי הגיע עם BERT, שאפשר לגוגל לפרש משפטים כמכלול ולהבין הקשרים עדינים.
