Car-tech

Google: 129 מיליון ספרים שונים פורסמו

What we learned from 5 million books

What we learned from 5 million books
Anonim

עבור אלה שתמיד תהו כמה ספרים שונים נמצאים בעולם, גוגל יש לך תשובה: 129,864,880, על פי לאוניד טייכר, מהנדס תוכנה של Google שעובד על פרויקט הספרים של Google.

הערכת מספר של ספרים בעולם הוא יותר מאשר תרגיל בסקרנות עבור ענקית החיפוש: הוא גם מספק מפת דרכים של חלק מהעבודה שעוד נותר לעשות כדי לענות על המטרה השאפתנית של החברה לארגן את כל המידע בעולם. אתה חלק מחברה שמנסה לספרת את כל הספרים בעולם, השאלה הראשונה שאתה מקבל היא: 'כמה ספרים יש שם?' ", הסביר טייגר בהודעה בבלוג שמכריזה על האומדן. > [לקריאה נוספת: שירותי הזרמת טלוויזיה הטוב ביותר]

כדי להגיע עם קירוב סביר, החברה החלה על ידי בליעת מידע הספר ממערכות קיטלוג מרובים, כגון מספרי הספר הסטנדרטי הבינלאומי (ISBN).

קטלוגים כאלה, בעוד מועיל, לא מספקים ספירה מוחלטת, למרות זאת. לדוגמה, מספרי ISBN הוקצו רק לספרים מאז שנות השישים, ונוטים לשמש רק במדינות המערב.

כמו כן, מספר רב של ספרים הוקצו למספרים ISBN בודדים, והמו"ל הקצה מספרי ISBN לפריטים שאינם ספרים, כגון חולצות ו DVD.

אז מהנדסי גוגל כתבו תוכניות לסרוק על כ -150 קטלוגים וספריות כאלה, ולחסל כמו רשומות כפולות רבות כפי שניתן למצוא.

החברה גם היה צריך לעשות מספר, למשל, כריכה רכה ומהדורות של כריכה קשה של טקסט נספרות כשני ספרים, וכך גם הגרסאות השונות של טקסט פופולארי, כמו של שייקספיר, "המלט", בשל ההקדמות ופרשנויות שהם עשויים להכיל. הסידורים עשויים להיחשב כספרים בודדים או כעבודה שנאספה.

נכון לחודש יוני, החברה סרקה 12 מיליון ספרים, על פי מצגת שניתנה על ידי מנהל ההנדסה של Google ספרים, ג'ון אורואנט, בכנס הטכנולוגי השנתי של USENIX בבוסטון. ספרים אלה נכתבו בכ -80 שפות (כולל 3 ספרים בשפה של קלינגון "מסע בין כוכבים").

החברה מתכננת להשלים את הסריקה של ספרים קיימים בתוך עשור. האוסף הוירטואלי שנוצר יכלול ארבעה מיליארדי עמודים ושני טריליון מילים, אומר אורואנט.

כ -20% מספרי העולם נמצאים ברשות הציבור, הסביר אורוואנט. כ -10% -15% מהספרים האלה מודפסים. הספרים הנותרים - רובם המכריע של כל הכותרות - עדיין תחת זכויות יוצרים אך לא של הדפסה. גוגל נמצאת בתהליך של שאילת עותקים של ספרים אלה כדי לספרת אותם, מ -40 ספריות גדולות ברחבי העולם.

זהו מעשה סריקה בספרים שאינם מעודכנים, אך עדיין מכוסה על ידי זכויות יוצרים אשר נפגשו עם התנגדות מסוימת על ידי תעשיית המו"לים.

החברה מחכה כעת לפסק דין של בית המשפט המחוזי של ארה"ב במחוז הדרום של ניו יורק, על השאלה אם היא יכולה לסרוק את הספרים האלה.

בשנת 2005, אגודת המחברים איגוד המו"לים האמריקאים הגיש בנפרד תביעות ייצוגיות נגד ענקית החיפוש, וטען שהחברה מפרה זכויות יוצרים על ידי סריקה בספרים.

Google טענה שהיא רוצה למכור עותקים דיגיטליים של עותקים אלה, להדפיס ספרים, וכן להפריש תמלוגים עבור המחברים לתבוע. החברה גם מקווה לחשוף קטעי טקסט של ספרים אלה בחיפושים באינטרנט, וטוען כי השימוש הזה נופל תחת דוקטרינת השימוש ההוגן של ארה"ב.

סריקה בכל ספרי העולם תוביל להטבות נוספות בנוסף לשיפור החיפושים, הסביר אורוואנט. כאשר כל הכרכים האלה דיגיטציה, התוכן שלהם יכול להיות נתון לניתוח, אשר יכול להוביל תובנות חדשות. בלשנים יכולים לגלות מתי מילים מסוימות נכנסו לשימוש נרחב, או מי מתחיל להשתמש במילים האלהGoogle Book Search יכול לעזור גם לענות על כמה שאלות היסטוריות בולטות: לדוגמה, הוא יכול להודיע ​​על הוויכוח בין אם אייזק ניוטון וגוטפריד לייבניץ - או מישהו אחר לגמרי - המציאו חצץ.

"אנחנו יכולים לחפש לא רק ביטוי אבל עבור מושג ", הסביר Orwant. "אנחנו יכולים לקחת את כל הדרכים השונות [כי הרעיון של] אינסוף יכול להיות מוטה, לתרגם את זה לשפות שונות, ולעשות חיפוש במקביל."

"התקווה שלי היא כי כאשר אנו מתחילים לחשוף הרבה יותר של זה יאפשר לאנשים לשאול שאלות כאלה שלא יכלו לשאול לפני כן ".

IDG News עורך השירות חואן קרלוס פרז תרם לדו"ח זה.

יואב ג'קסון מכסה את התוכנה הארגונית ואת הטכנולוגיה הכללית שבירת חדשות עבור

שירות חדשות IDG

. בצע יואב בטוויטר ב @ Joab_Jackson. כתובת הדואר האלקטרוני של יואב היא [email protected]