עיקרי שירותי הזרמה AI לומד לרמות ב- Q * bert בצורה שאף אדם לא עשה מעולם

AI לומד לרמות ב- Q * bert בצורה שאף אדם לא עשה מעולם



AI הצליח לרמות עם מיטב האנושות להציע לאחר שגילה נצל במשחק הארקייד הקלאסי Q * bert ורץ איתו.

בעוד שחזרות קודמות של ה- AI ישחקו כראוי ב- Q *, בשלב מסוים של למידת אופן הפעולה של המשחק, הוא מגלה ניצול המאפשר לו לצבור נקודות מטורפות. מטבע הדברים, כמו שכל שחקן ציד ציונים יעשה, הוא חוזר על התהליך כך שהוא יכול לשפר את הציון שלו בצורה היעילה ביותר האפשרית.

אתה יכול לראות את ה- AI עובד סביב פלטפורמות בסרטון למטה. בהתחלה זה נראה כאילו הוא קופץ ללא מטרה בין פלטפורמות. במקום לראות את המשחק מתקדם לסיבוב הבא, Q * ברט נתקע בלולאה שבה כל הפלטפורמות שלה מתחילות להבהב - זה כאן ה- AI יכול אז להמשיך בטירוף ציונים וצובר נקודות ענק.

קרא הבא: אחד משיאי המשחק השנויים במחלוקת ביותר הוכרע לבסוף

איך לשחק עם חברים שלא הפכו

איך ה- AI ניצח במלחמת Q * ברט

כשהוא שובר את שיא התואר בכל הזמנים, ה- AI צבר ציון גבוה בלתי אפשרי הודות לתכנות האלגוריתם של אסטרטגיית האבולוציה שלו. אסטרטגיות האבולוציה (ES) נבדלות ממידת החיזוק הרגילה (RL) בהן AI המסורתית משתמשת כיוון שהיא נתפסת כניתנת להרחבה יותר בגלל הלמידה הדורית שלה.

כל לולאת למידה מכונה דור והיא ממשיכה במשימתה עד שתמלא תנאי מוגדר (במקרה זה, ציון גבוה). עם כל דור עוקב, ה- AI סופג את הידע של הדור הקודם ולכן עדיף להשיג את אותה מטרה ולעלות עליה. המשיכו הלאה, ובסופו של דבר תמצאו AI מלאכותי לחלוטין ללא תחרות. זה בדיוק מה שקרה כאן עם ציון ה- Q * ברט.

מתואר ב הנייר , שפורסם בשבוע שעבר על ידי חוקרים מאוניברסיטת פרייבורג, גרמניה, נראה כי הבאג לא היה כמות ידועה. למעשה, למרות שהם לא מופתעים מדי למצוא את הבאג, מעניין לראות כיצד ה- AI המשיך ואז למד לנצל אותו בכל פעם שהוא שיחק כדי למקסם את פוטנציאל הניקוד שלו.

קרא הבא: האינטליגנציה המלאכותית הזו למדה לשלוט בסופר מריו ברוס

החוקרים הסבירו כי כדי למצוא את הבאג, נדרש הסוכן ללמוד כמעט להשלים את הרמה הראשונה - זה לא נעשה בבת אחת. הקופה . אנו חושדים שבשלב מסוים באימון אחד מפתרונות הצאצאים נתקל בבאג וקיבל ציון טוב בהרבה בהשוואה לאחיו, מה שבתורו הגדיל את תרומתו לעדכון - משקלו היה הגבוה ביותר בממוצע המשוקלל. זה העביר לאט את הפתרון לחלל שבו יותר ויותר צאצאים החלו להיתקל באותו באג.

איננו יודעים את התנאים המדויקים שבהם מופיע הבאג; יתכן שזה מופיע רק אם הסוכן עוקב אחר דפוס שנראה לא אופטימלי, [למשל כאשר הסוכן מבזבז זמן, או אפילו מאבד חיים]. אם זה היה המקרה, יהיה קשה מאוד ל- RL רגיל למצוא את הבאג: אם אתה משתמש בתגמולים מצטברים תלמד אסטרטגיות שמניבות במהירות תגמול כלשהו, ​​ולא אסטרטגיות למידה שאינן מניבות תגמולים רבים לזמן מה ואז פתאום לנצח בגדול.

ראה קשורים אלוף דרגסטר טוד רוג'רס איבד זה עתה את כתרו לאחר 35 שנה האינטליגנציה המלאכותית הזו לומדת לשלוט בסופר מריו ברוס 1-2 מזה 17 יום צפו ב- AI זה לנהוג ב- GTA V ב- Twitch

עם זאת, למרות התוצאות הנפלאות של הבוט, החוקרים לא אומרים שזה מקרה לאלוף ES ללמוד על RL. למעשה, לשתי המערכות יש בעיות משלהן ושילוב בין שתיהן נתפס במידה רבה כאפשרות הטובה ביותר להתקדם.

אותה שיטת ES במשחקי אטרי אחרים לא הביאה לשום מקום קרוב לאותן תוצאות חיוביות. מצד שני, RL אחראית לנפץ שיאים שמאל, ימין ומרכז, כולל הכאת שחקן ה- GO הטוב בעולם. ל- ES עדיין יש מקום משלה בדברים, ולמעשה כך Nvidia מבצעת הרבה מההכשרה של AI בגלל שהיא דורשת יותר כוח חישוב אך משיגה תוצאות טובות יותר לאורך זמן ארוך יותר.

לא משנה איזו דרך תהפוך לעתיד לפיתוח AI, לפחות הבוט הזה שמרמה את המערכת לא כזה רע עכשיו אלוף עולם במשחקי הווידאו מביש .

מאמרים מעניינים

בחירת העורך

כיצד להשתמש ב-Bing AI בגוגל כרום
כיצד להשתמש ב-Bing AI בגוגל כרום
ניתן לגשת לכלי Bing AI של מיקרוסופט בדפדפן האינטרנט Google Chrome בחינם וללא צורך בהרחבות, אפליקציות או תוכניות נוספות. ניתן להשתמש ב-Bing AI ב-Chrome כדי ליצור תמונות בינה מלאכותית, לכתוב שירים או שירים ולמחקר נושאים.
Snapchat: מה המשמעות של לבבות אלה?
Snapchat: מה המשמעות של לבבות אלה?
נראה שיש יותר רשתות חברתיות בכל יום! עם כל פלטפורמה חדשה, זה מרגיש כאילו כולנו נאלצים להשקיע יותר ויותר זמן ביום באיזון החיים החברתיים שלנו ברשת. פרסום עדכוני סטטוס לפייסבוק, חדש
תכונה חדשה של טלפון ומכשירים אחרים בהגדרות Edge מקדמת Edge עבור טלפונים חכמים
תכונה חדשה של טלפון ומכשירים אחרים בהגדרות Edge מקדמת Edge עבור טלפונים חכמים
שינוי נוסף נחת בסניף הקנרית של Microsoft Edge. סעיף חדש בהגדרות, טלפון והתקנים אחרים, ידריך את המשתמשים כיצד להתאים את גרסת הדפדפן השולחני לבין מקבילתו ל- Android ו- iOS. פרסום החלק החדש ניתן למצוא תחת תפריט> הגדרות> טלפון ומכשירים אחרים. אתה
אפס את הגדרות מנהל המשימות באמצעות קיצור מקשים
אפס את הגדרות מנהל המשימות באמצעות קיצור מקשים
כיצד לאפס את הגדרות מנהל המשימות באמצעות קיצור מקשים ל- Windows 8 ו- Windows 10 יש אפליקציה חדשה למנהל המשימות. זה נראה שונה לחלוטין בהשוואה למנהל המשימות של Windows 7 ויש לו תכונות שונות. זה מגיע עם מספר אפשרויות שניתן להתאים אישית על ידי המשתמש. אם אתה לא מרוצה מ
מהו מספר סידורי?
מהו מספר סידורי?
מספר סידורי הוא רצף ייחודי של מספרים ואותיות. מספרים סידוריים משמשים לזיהוי חלקי חומרה ותוכנה בודדים.
Edge Chromium מקבל סנכרון תוספים
Edge Chromium מקבל סנכרון תוספים
אחת התכונות שחסרו בעבר, סנכרון הרחבות, מגיעה סוף סוף ל- Microsoft Edge Chromium. הוא כבר נחת בסניף הקנרי של הדפדפן, שמציג את Chromium 82 כבסיסו ברגע כתיבת שורות אלה. פרסומת הודעה חדשה בפורום הקהילה הטכנולוגית מגלה כי החל ב- Edge Canary 82.0.424.0, חלק מה
[BEST FIX] שגיאות 'עמוד_פגם_בנתוני_דף' ב- Windows 10
[BEST FIX] שגיאות 'עמוד_פגם_בנתוני_דף' ב- Windows 10
שגיאות Page_fault_in_nonpaged_area היו קיימות מאז Windows XP אם לא יותר. הם מתייחסים ל- Windows או ליישום Windows שמנסה לגשת לחלק מהזיכרון הפיזי שאינו חוקי. או שהוא נמצא בשימוש על ידי אפליקציה אחרת או שהוא