Windows

תוכניות הנתונים הגדולות של פייסבוק כוללות מחסנים, ניתוח מהיר יותר

המשכיות עסקית בתקופת משבר כיצד עושים זאת מפגש 1 בסדרה 26.3.20 - כולל כתוביות

המשכיות עסקית בתקופת משבר כיצד עושים זאת מפגש 1 בסדרה 26.3.20 - כולל כתוביות
Anonim

פייסבוק עשויה להעריך את הנתונים שיש לה על המשתמשים המיליארדים פלוס שלה עבור תשואות הפרסום שלה, אך הניתוח שהאתר מבצע על נתונים אלה צפוי להמשיך ולהוות אתגרים רבים במהלך השנה הקרובה, אומר מהנדס. הבעיות שהפייסבוק נאלץ להתמודד עם "הרבה יותר מוקדם מאשר בתעשייה הרחבה" דרכים יעילות יותר לעבד את התנהגות המשתמשים באתר, כיצד לגשת טוב יותר ולאחד סוגים שונים של נתונים על פני מרכזי הנתונים המרובים של פייסבוק, ולהמציא מערכות תוכנה קוד פתוח חדשות לעיבוד הנתונים, Ra מירתי, המנהל את תשתית האנליזה של פייסבוק, אמר אתמול כי "פייסבוק היא חברת נתונים, והדבר הברור ביותר שאנשים חושבים עליו בחזית זו הוא מיקוד מודעות", אמר בכנס בתעשייה בסן פרנסיסקו. לדבר על תשתיות עורפיות של פייסבוק, ניתוח נתונים ופרוייקטים של קוד פתוח. [

[קריאה נוספת: שירותי הזרמת הטלוויזיה הטובים ביותר]

"אבל זה הולך עמוק יותר מזה", הוא אומר. העבודה מאחורי הקלעים מתייחסת לתשתית האנליזה של פייסבוק, אשר נועדה להאיץ את פיתוח המוצרים ולשפר את חוויית המשתמש באמצעות ניתוח מעמיק של כל הנתונים הזמינים, בין אם היא מורכבת מהפעולות שמשתמשים מבצעים באתר, כגון פרסום עדכוני סטטוס או יישומים שבהם הם משתמשים ב- Facebook בהתקנים שונים.

פייסבוק משתמשת כיום במספר מערכות תוכנה קוד פתוח שונות הידועה בשם Hadoop, Corona ו- Prism כדי לעבד ולנתח את הנתונים שלה, אשר החברה תתמקד בייצור מהר יותר ויעיל יותר במהלך ששת החודשים עד שתים עשרה החודשים הבאים, אומר מורתי. רבים מהאתגרים של החברה קשורים למה שמכונה פייסבוק כמחסן הנתונים שלה, המשלב נתונים ממקורות מרובים למסד נתונים שבו ניתן לנתח את פעילות המשתמשים במצטבר, כגון על ידי מתן דיווח יומי על מספר התמונות שתויגו בארץ ספציפית, או בדיקת מספר המשתמשים באזור מסוים שעסקו בדפים שהומלצו להם.

הניתוח נועד כדי לייעל את חוויות המשתמש ולגלות מה משתמשים אוהבים ולא אוהבים, אבל זה גם הופך להיות יותר taxing כמו פייסבוק הוא מסוגל לגשת יותר ויותר נתונים על המשתמשים שלה, אמר Murthy. נכון לעכשיו, מחסן פייסבוק לוקח 500 טרה של נתונים חדשים מדי יום, או 500,000 ג 'יגה בייט. המחסן גדל כמעט פי 4,000 פעמים בארבע השנים האחרונות, "בדרך לפייסבוק", אומר מורטי. "כדי להתמודד עם בעיות אלה, פיתחה פייסבוק את מערכת התוכנה פריזמה שלה, שתוכננה לבצע ניתוח פונקציות מפתח ברחבי מרכזי הנתונים של החברה ברחבי העולם, וכן לפצל את הניתוחים לתוך "chunks," אמר מרטי. בדרך זו, ביצוע ניתוח על, למשל, מדד כלשהו הקשור להזנות חדשות של משתמשים לא יסתיר את המחסן באופן כללי יותר. "אנחנו חושבים יותר ויותר איך ללכוד נתונים אלה", אמר. בנוסף, החברה עובדת על מערכת שלוקחת גישה שונה לחלוטין לשאילתה במחסן כדי לתת זמן תגובה תוך שניות ספורות, אומר מורטי.

תחום נוסף פייסבוק ממשיך לבחון את שיפור התשתית העסקית שלו, "אשר מטפל בסיסית יותר, יום יום עיבוד נתונים, למשל, אוהב, תגובות ועדכוני סטטוס כדי לשמור על הרשת החברתית פועל בצורה חלקה. כמה מהמהנדסים והאנליסטים של החברה בוחנים את האופן שבו ניתן לצפות את הצמיחה בפועל בסוג נתונים זה, וכמה מחשוב פייסבוק צריך להקצות לו באמת, אמר מורטי."אנחנו יכולים לחזות מה זה יהיה בעוד שישה חודשים?", הוא אומר. "בינתיים, פייסבוק היא גם מעורבת במאמץ ארוך טווח כדי להפוך את השרתים הפיזיים שלה יעיל יותר. החברה החלה את פרויקט Open Computing בשנת 2011, במטרה לעצב שרתים מודולאריים המעניקים ללקוחות שליטה רבה יותר על הרשתות, הזיכרון, ספקי הכוח ורכיבים אחרים הנכנסים לשרתים שלהם. הוא הורחב כדי לשלב מעבדים ARM בינואר