AI הצליח לרמות עם מיטב האנושות להציע לאחר שגילה נצל במשחק הארקייד הקלאסי Q * bert ורץ איתו.
בעוד שחזרות קודמות של ה- AI ישחקו כראוי ב- Q *, בשלב מסוים של למידת אופן הפעולה של המשחק, הוא מגלה ניצול המאפשר לו לצבור נקודות מטורפות. מטבע הדברים, כמו שכל שחקן ציד ציונים יעשה, הוא חוזר על התהליך כך שהוא יכול לשפר את הציון שלו בצורה היעילה ביותר האפשרית.
אתה יכול לראות את ה- AI עובד סביב פלטפורמות בסרטון למטה. בהתחלה זה נראה כאילו הוא קופץ ללא מטרה בין פלטפורמות. במקום לראות את המשחק מתקדם לסיבוב הבא, Q * ברט נתקע בלולאה שבה כל הפלטפורמות שלה מתחילות להבהב - זה כאן ה- AI יכול אז להמשיך בטירוף ציונים וצובר נקודות ענק.
קרא הבא: אחד משיאי המשחק השנויים במחלוקת ביותר הוכרע לבסוף
איך לשחק עם חברים שלא הפכו
איך ה- AI ניצח במלחמת Q * ברט
כשהוא שובר את שיא התואר בכל הזמנים, ה- AI צבר ציון גבוה בלתי אפשרי הודות לתכנות האלגוריתם של אסטרטגיית האבולוציה שלו. אסטרטגיות האבולוציה (ES) נבדלות ממידת החיזוק הרגילה (RL) בהן AI המסורתית משתמשת כיוון שהיא נתפסת כניתנת להרחבה יותר בגלל הלמידה הדורית שלה.
כל לולאת למידה מכונה דור והיא ממשיכה במשימתה עד שתמלא תנאי מוגדר (במקרה זה, ציון גבוה). עם כל דור עוקב, ה- AI סופג את הידע של הדור הקודם ולכן עדיף להשיג את אותה מטרה ולעלות עליה. המשיכו הלאה, ובסופו של דבר תמצאו AI מלאכותי לחלוטין ללא תחרות. זה בדיוק מה שקרה כאן עם ציון ה- Q * ברט.
מתואר ב הנייר , שפורסם בשבוע שעבר על ידי חוקרים מאוניברסיטת פרייבורג, גרמניה, נראה כי הבאג לא היה כמות ידועה. למעשה, למרות שהם לא מופתעים מדי למצוא את הבאג, מעניין לראות כיצד ה- AI המשיך ואז למד לנצל אותו בכל פעם שהוא שיחק כדי למקסם את פוטנציאל הניקוד שלו.
קרא הבא: האינטליגנציה המלאכותית הזו למדה לשלוט בסופר מריו ברוס
החוקרים הסבירו כי כדי למצוא את הבאג, נדרש הסוכן ללמוד כמעט להשלים את הרמה הראשונה - זה לא נעשה בבת אחת. הקופה . אנו חושדים שבשלב מסוים באימון אחד מפתרונות הצאצאים נתקל בבאג וקיבל ציון טוב בהרבה בהשוואה לאחיו, מה שבתורו הגדיל את תרומתו לעדכון - משקלו היה הגבוה ביותר בממוצע המשוקלל. זה העביר לאט את הפתרון לחלל שבו יותר ויותר צאצאים החלו להיתקל באותו באג.
איננו יודעים את התנאים המדויקים שבהם מופיע הבאג; יתכן שזה מופיע רק אם הסוכן עוקב אחר דפוס שנראה לא אופטימלי, [למשל כאשר הסוכן מבזבז זמן, או אפילו מאבד חיים]. אם זה היה המקרה, יהיה קשה מאוד ל- RL רגיל למצוא את הבאג: אם אתה משתמש בתגמולים מצטברים תלמד אסטרטגיות שמניבות במהירות תגמול כלשהו, ולא אסטרטגיות למידה שאינן מניבות תגמולים רבים לזמן מה ואז פתאום לנצח בגדול.
ראה קשורים אלוף דרגסטר טוד רוג'רס איבד זה עתה את כתרו לאחר 35 שנה האינטליגנציה המלאכותית הזו לומדת לשלוט בסופר מריו ברוס 1-2 מזה 17 יום צפו ב- AI זה לנהוג ב- GTA V ב- Twitch
עם זאת, למרות התוצאות הנפלאות של הבוט, החוקרים לא אומרים שזה מקרה לאלוף ES ללמוד על RL. למעשה, לשתי המערכות יש בעיות משלהן ושילוב בין שתיהן נתפס במידה רבה כאפשרות הטובה ביותר להתקדם.
אותה שיטת ES במשחקי אטרי אחרים לא הביאה לשום מקום קרוב לאותן תוצאות חיוביות. מצד שני, RL אחראית לנפץ שיאים שמאל, ימין ומרכז, כולל הכאת שחקן ה- GO הטוב בעולם. ל- ES עדיין יש מקום משלה בדברים, ולמעשה כך Nvidia מבצעת הרבה מההכשרה של AI בגלל שהיא דורשת יותר כוח חישוב אך משיגה תוצאות טובות יותר לאורך זמן ארוך יותר.
לא משנה איזו דרך תהפוך לעתיד לפיתוח AI, לפחות הבוט הזה שמרמה את המערכת לא כזה רע עכשיו אלוף עולם במשחקי הווידאו מביש .