AI לומד לרמות ב- Q * bert בצורה שאף אדם לא עשה מעולם

AI הצליח לרמות עם מיטב האנושות להציע לאחר שגילה נצל במשחק הארקייד הקלאסי Q * bert ורץ איתו.

בעוד שחזרות קודמות של ה- AI ישחקו כראוי ב- Q *, בשלב מסוים של למידת אופן הפעולה של המשחק, הוא מגלה ניצול המאפשר לו לצבור נקודות מטורפות. מטבע הדברים, כמו שכל שחקן ציד ציונים יעשה, הוא חוזר על התהליך כך שהוא יכול לשפר את הציון שלו בצורה היעילה ביותר האפשרית.

אתה יכול לראות את ה- AI עובד סביב פלטפורמות בסרטון למטה. בהתחלה זה נראה כאילו הוא קופץ ללא מטרה בין פלטפורמות. במקום לראות את המשחק מתקדם לסיבוב הבא, Q * ברט נתקע בלולאה שבה כל הפלטפורמות שלה מתחילות להבהב - זה כאן ה- AI יכול אז להמשיך בטירוף ציונים וצובר נקודות ענק.

קרא הבא: אחד משיאי המשחק השנויים במחלוקת ביותר הוכרע לבסוף

איך לשחק עם חברים שלא הפכו

איך ה- AI ניצח במלחמת Q * ברט

כשהוא שובר את שיא התואר בכל הזמנים, ה- AI צבר ציון גבוה בלתי אפשרי הודות לתכנות האלגוריתם של אסטרטגיית האבולוציה שלו. אסטרטגיות האבולוציה (ES) נבדלות ממידת החיזוק הרגילה (RL) בהן AI המסורתית משתמשת כיוון שהיא נתפסת כניתנת להרחבה יותר בגלל הלמידה הדורית שלה.

כל לולאת למידה מכונה דור והיא ממשיכה במשימתה עד שתמלא תנאי מוגדר (במקרה זה, ציון גבוה). עם כל דור עוקב, ה- AI סופג את הידע של הדור הקודם ולכן עדיף להשיג את אותה מטרה ולעלות עליה. המשיכו הלאה, ובסופו של דבר תמצאו AI מלאכותי לחלוטין ללא תחרות. זה בדיוק מה שקרה כאן עם ציון ה- Q * ברט.

מתואר ב הנייר , שפורסם בשבוע שעבר על ידי חוקרים מאוניברסיטת פרייבורג, גרמניה, נראה כי הבאג לא היה כמות ידועה. למעשה, למרות שהם לא מופתעים מדי למצוא את הבאג, מעניין לראות כיצד ה- AI המשיך ואז למד לנצל אותו בכל פעם שהוא שיחק כדי למקסם את פוטנציאל הניקוד שלו.

קרא הבא: האינטליגנציה המלאכותית הזו למדה לשלוט בסופר מריו ברוס

החוקרים הסבירו כי כדי למצוא את הבאג, נדרש הסוכן ללמוד כמעט להשלים את הרמה הראשונה - זה לא נעשה בבת אחת. הקופה . אנו חושדים שבשלב מסוים באימון אחד מפתרונות הצאצאים נתקל בבאג וקיבל ציון טוב בהרבה בהשוואה לאחיו, מה שבתורו הגדיל את תרומתו לעדכון - משקלו היה הגבוה ביותר בממוצע המשוקלל. זה העביר לאט את הפתרון לחלל שבו יותר ויותר צאצאים החלו להיתקל באותו באג.

איננו יודעים את התנאים המדויקים שבהם מופיע הבאג; יתכן שזה מופיע רק אם הסוכן עוקב אחר דפוס שנראה לא אופטימלי, [למשל כאשר הסוכן מבזבז זמן, או אפילו מאבד חיים]. אם זה היה המקרה, יהיה קשה מאוד ל- RL רגיל למצוא את הבאג: אם אתה משתמש בתגמולים מצטברים תלמד אסטרטגיות שמניבות במהירות תגמול כלשהו, ולא אסטרטגיות למידה שאינן מניבות תגמולים רבים לזמן מה ואז פתאום לנצח בגדול.

ראה קשורים אלוף דרגסטר טוד רוג'רס איבד זה עתה את כתרו לאחר 35 שנה האינטליגנציה המלאכותית הזו לומדת לשלוט בסופר מריו ברוס 1-2 מזה 17 יום צפו ב- AI זה לנהוג ב- GTA V ב- Twitch

עם זאת, למרות התוצאות הנפלאות של הבוט, החוקרים לא אומרים שזה מקרה לאלוף ES ללמוד על RL. למעשה, לשתי המערכות יש בעיות משלהן ושילוב בין שתיהן נתפס במידה רבה כאפשרות הטובה ביותר להתקדם.

אותה שיטת ES במשחקי אטרי אחרים לא הביאה לשום מקום קרוב לאותן תוצאות חיוביות. מצד שני, RL אחראית לנפץ שיאים שמאל, ימין ומרכז, כולל הכאת שחקן ה- GO הטוב בעולם. ל- ES עדיין יש מקום משלה בדברים, ולמעשה כך Nvidia מבצעת הרבה מההכשרה של AI בגלל שהיא דורשת יותר כוח חישוב אך משיגה תוצאות טובות יותר לאורך זמן ארוך יותר.

לא משנה איזו דרך תהפוך לעתיד לפיתוח AI, לפחות הבוט הזה שמרמה את המערכת לא כזה רע עכשיו אלוף עולם במשחקי הווידאו מביש .

**AI לומד לרמות ב- Q * bert בצורה שאף אדם לא עשה מעולם**

איך ה- AI ניצח במלחמת Q * ברט

מאמרים מעניינים

כיצד להשתמש בקרוסלת Zoosk

Microsoft Edge Chromium נגמר בתצוגה מקדימה, הורד אותו עכשיו

בחירת העורך

כיצד לחסום שיחות ללא זיהוי מתקשר באייפון

מאמר זה מסביר שלוש דרכים להשתיק שיחות טלפון ממספרים שאין להם מידע מזהה מתקשר.

מה הם קבצי AIFF, AIF ו-AIFC?

קובץ AIFF או AIF הוא קובץ Audio Interchange File Format. ראה כיצד לפתוח קובץ AIF/AIFF/AIFC או להמיר אחד לפורמט אחר כמו MP3.

הפעל או כבה את הודעות הטלפון שלך עבור Android ב- Windows 10

הפעל או כבה את אפליקציית הטלפון שלך התראות עבור התראות אנדרואיד ב- Windows 10. התכונה סוף סוף זמינה, כך שיש לך הזדמנות לנסות אותה למעשה

מנטה מאובטח של לינוקס נגד התפרצויות ופגיעות ברפאים

בימינו כולם יודעים על הפגמים ב- Meltdown ו- Specter המשפיעים על כל המעבדים המודרניים. כך תוכלו לאבטח את מחשב המנטה שלכם מלינוקס.

**AI לומד לרמות ב- Q * bert בצורה שאף אדם לא עשה מעולם**

AI הצליח לרמות עם מיטב האנושות להציע לאחר שגילה ניצול במשחק הארקייד הקלאסי Q * bert ורץ איתו. בעוד שחזרות קודמות של ה- AI היו משחקות Q * ברט כראוי, בחלקן

כיצד להקליט רק פרקים חדשים בטלוויזיה

https://www.youtube.com/watch?v=8jPRBlfmslM YouTube TV מספק הקלטה ללא הגבלה, וזה בכלל לא לוקח מקום אחסון. כל התוכן מסתיים בענן וזמין לצפייה בתשעת החודשים הבאים.

ארכיוני תגים: .net framework