Car-tech

מחשבי העל החשובים ביותר נופלים בצורה הקשה ביותר, כך עולה ממחקר חדש, כפי שמחשבי העל גדלים יותר, הם גם יגלו פגיעים יותר לכישלון, הודות לגידול בכמות הבנויים -רכיב רכיבים. כמה חוקרים בכנס האחרון של SC12 הציעו פתרונות אפשריים לבעיה ההולכת ומתגברת.

המסע אל הר החורבן האפל של האבדון - מופע שני

המסע אל הר החורבן האפל של האבדון - מופע שני

תוכן עניינים:

Anonim

מערכות מחשוב עתירות ביצועים (HPC) של היום יכולות להכיל 100,000 צמתים או יותר - מרכיבי זיכרון, מעבדים, אוטובוסים ומעגלים חשמליים אחרים. מבחינה סטטיסטית, כל המרכיבים הללו ייכשלו בשלב מסוים, והם יפסיקו את הפעילות כאשר הם עושים זאת, אמר דיוויד פיאלה, סטודנט לתואר דוקטור באוניברסיטת צפון קרוליינה סטייט, במהלך שיחה ב SC12.

הבעיה היא לא חדשה, כמובן. כאשר המחשב הלבן של לורנס ליברמור (600) הצביע על כך שב -2001 הוא היה ממוצע בין תקלות (MTBF) של חמש שעות בלבד, בין היתר הודות לכישלונות של רכיבים. מאמצי הכוונון המאוחרים יותר שיפרו את ה- MTBF של ASCI White ל -55 שעות, אמר פיאלה. אבל עם הגידול במספר הצמתים העל-מרכזיים, כך גם הבעיה. "יש לעשות משהו בעניין זה, זה ילך ויגבר ככל שאנחנו נעבור להתרסקות", אמר פיאלה, בהתייחסו למחשבי העשור הבא שצפויה להיות בעלי כוח פי עשרה יותר מהמודלים של היום. עבור התמודדות עם כישלון המערכת לא בקנה מידה טוב מאוד, אמר Fiala. הוא ציטט מחסום, שבו תוכנית ריצה נעצרה זמנית ומצבה נשמר בדיסק. אם התוכנית תתרסק אז, המערכת מסוגלת להפעיל מחדש את העבודה מהמחסום האחרון.

NSUDUDID Fiala

הבעיה עם המחסום, לפי פיאלה, היא שככל שמספר הצמתים גדל, כמות התקורה של המערכת צריך לעשות מחסום גדל גם כן - וגדל בקצב מעריכי. על מחשוב על 100,000 צומת, למשל, רק כ -35% מהפעילות יהיו מעורבים בביצוע עבודה. את כל שאר החומרה הדרושה למערכות exascale, אשר יכולות להיבנות ממיליון או יותר רכיבים, אמינות המערכת תהיה. כדי להשתפר ב -100 פעמים על מנת לשמור על אותו MTBF שמחשבי העל של היום נהנים ממנו, אמר פיאלה.

ישן, עצה טובה: גבה את הנתונים

הציג פיאלה טכנולוגיה שפותחה על ידו ועל ידי חוקרים אחרים שעשויים לסייע בשיפור האמינות. הטכנולוגיה מתייחסת לבעיה של השחיתות בנתונים שקטים, כאשר המערכות מבצעות שגיאות לא מזוהות בכתיבת נתונים לדיסק.

ביסודו של דבר, הגישה של החוקרים מורכבת מהפעלת עותקים מרובים או "שיבוטים" של תוכנית, בו זמנית ולאחר מכן השוואת התשובות. התוכנה, הנקראת RedMPI, מנוהלת בשיתוף עם ממשק העברת ההודעות (MPI), ספריה לפיצול יישומים פועלים על פני מספר שרתים, כך שניתן יהיה לבצע את החלקים השונים של התוכנית במקביל.

RedMPI מיירט ומעתיק כל MPI הודעה כי יישום שולח, ושולח עותקים של ההודעה לשכפול (או שיבוטים) של התוכנית. אם שיבוטים שונים לחשב תשובות שונות, אז את המספרים ניתן לחשב מחדש על לטוס, אשר תחסוך זמן ומשאבים מניהול התוכנית כולה שוב.

"יישום יתירות הוא לא יקר.זה עשוי להיות גבוה במספר ליבות כי יש צורך, אבל זה נמנע הצורך rewrites עם מחסום מחדש, "אמר Fiala. "האלטרנטיבה היא, כמובן, פשוט להחזיר את העבודות עד שתחשוב שיש לך את התשובה הנכונה."

Fiala המליצו להריץ שני עותקי גיבוי של כל תוכנית, לשלושה יתירות. למרות הפעלת עותקים מרובים של התוכנית היה בתחילה לקחת יותר משאבים, עם הזמן זה עשוי להיות יעיל יותר, בשל העובדה כי תוכניות לא צריך להיות שידור חוזר לבדוק תשובות. כמו כן, ייתכן שהמחסום לא יהיה נחוץ בעת הפעלת עותקים מרובים, אשר גם ישמרו על משאבי המערכתUCSCEthan מילר

"אני חושב שהרעיון לעשות יתירות הוא רעיון נהדר", אומר אית'ן מילר, "יש סיכוי גדול שטעויות יתגנבו", אומר איתן מילר, פרופסור למדעי המחשב באוניברסיטת קליפורניה סנטה קרוז, שהשתתף במצגת. אבל הוא אמר את הגישה עשוי להיות לא מתאים בהתחשב בכמות של תעבורת הרשת כי יתירות כזה עשוי ליצור. הוא הציע להריץ את כל היישומים על אותה קבוצה של צמתים, אשר יכול למזער את התנועה interode.

במצגת אחרת, אנה Gainaru, דוקטורנטית מאוניברסיטת אילינוי באורבנה-שמפיין, הציג טכניקה של ניתוח יומן כדי לחזות מתי יתרחשו תקלות במערכת.

העבודה משלבת ניתוח אותות עם כריית נתונים. ניתוח אותות משמש לאפיין התנהגות נורמלית, ולכן כאשר מתרחש כשל, זה יכול להיות בקלות הבחין. כריית נתונים מחפשת קורלציות בין כשלים מדווחים נפרדים. חוקרים אחרים הראו כי כשלים מרובים מתואמים לעיתים זה עם זה, משום שכישלון בטכנולוגיה אחת עשוי להשפיע על ביצועים אחרים, על פי Gainaru. לדוגמה, כאשר כרטיס רשת נכשל, הוא ישתלט בקרוב על תהליכי מערכת אחרים המסתמכים על תקשורת רשת.

החוקרים מצאו ש -70% מהכישלונות המתואמים מספקים חלון הזדמנויות של יותר מ -10 שניות. במילים אחרות, כאשר הסימן הראשון לכשל זוהה, המערכת עשויה להחזיק עד 10 שניות כדי לשמור את עבודתה, או להעביר את העבודה לצומת אחר, לפני שמתרחש כשל קריטי יותר. "חיזוי כישלון יכול להיות ממוזג עם טכניקות אחרות של סכנת תקלות", אומר Gainaru.

יואב ג'קסון מכסה את התוכנה הארגונית והטכנולוגיה הכללית שבירת חדשות עבור

שירות IDG חדשות

. בצע יואב בטוויטר ב @ Joab_Jackson. כתובת הדואר האלקטרוני של יואב היא [email protected]