Car-tech

מערכות זיהוי דיבור חייב לקבל חכם יותר, פרופסור אומר

חוצה ישראל עם קובי מידן - פרופ' דן מירון

חוצה ישראל עם קובי מידן - פרופ' דן מירון
Anonim

מי מתעבים את הדיבור בטלפון למערכות זיהוי דיבור אוטומטיות עלולות להתנחם בעובדה שמדענים פועלים כדי להפוך את המערכות הללו ליותר מציאותיות ופחות מעצבנות לשימוש. "מתוך ניסיון הצרכנים, אנשים מוצאים שהמערכות האלה מתסכלות מאוד", אומר ג'יימס אלן, שהוא יו"ר מדעי המחשב באוניברסיטת רוצ'סטר, מדבר בפני ועידת SpeechTEK 2010, שהתקיימה בניו יורק השבוע.

רוב מערכות זיהוי הדיבור הממוחשבות יכולות להבין את מה שאדם אומר עד 98 אחוז מהזמן, ובכל זאת אנשים עדיין chafe ב באמצעות אוטומטיות הטלפון לעזרה השולחן מערכות. המפתח להפיכת המערכות האלה לתסכול פחות בשימוש יהיה על ידי מתן הבנה עמוקה יותר של השפה והפיכתן לאינטראקטיביות יותר, אמר אלן. [

[לקריאה נוספת: המחשב החדש שלך זקוק ל -15 תוכניות חינם, מצוינות]

בשלב זה, מחלקות שירות הלקוחות של רוב הארגונים הגדולים מציעים מערכות אוטומטיות מבוססות עזרה טלפונית. משתמש קורא את מספר העזרה וקול מלאכותי שואל את המתקשר סדרה של שאלות. רוב המערכות הללו מבוססות על מסגרות שהן בעיקרן עצי החלטה גדולים. עם מערכות כאלה, "אתה לא יודע מה האדם רוצה, אתה עוקב אחר תסריט," הוא אמר.

המערכות הן למעשה מורכב של מספר טכנולוגיות שונות. אחת מהן היא זיהוי דיבור, או היכולת של מחשב להבין, או לתרגם בהצלחה לטקסט, מה שהדובר אומר.

הטכנולוגיה האחרת, עיבוד שפה טבעית (NLP), מנסה להמיר את המסר של הדובר לפקודה כי המחשב יכול לבצע, או שניתן לסכם עבור מפעיל אנושי.

צעדים גדולים נעשו הן הכרה קולית NLP בעשורים האחרונים, אבל הם כנראה הביאו בעיקר תסכול למשתמשים שלהם. "אני מתקשר לבנק רק כאשר יש לי בעיה ומאבקים את המערכות האלה", אומר אלן. "אני שואל מה אני יכול לענות כדי להגיע לאדם מהר ככל האפשר", אומר אלן. במציאת דרכים ש"נוכל לדבר עם מכונה באותה דרך שבה אנחנו יכולים לדבר עם אדם ", הוא אומר." שיחות בין שני אנשים יכולות להיות מדויקות באופן שבו מחשבים מתקשים להתאים. אלן הצביע על איזו עבודה מוקדמת שעשה כסטודנט לתואר שני, שבו רשם שיחות בדוכן מידע של תחנת הרכבת. באינטראקציה אחת עולה נוסע אל התא ואומר "8:50 לווינדזור", והדיבר עונה "שער 10, 20 דקות מאוחר". בזמן שהמטפל ידע בדיוק איזה מידע ביקש השואל, מערכות ממוחשבות ימצאו את ההצהרה הראשונה של הנוסע מבולבלת.

כפי שאלן רואה זאת, חסרים שני מרכיבים מהמערכות המודרניות: היכולת לנתח את מה שהדובר אומר ואת היכולת לשוחח עם הדובר כדי ללמוד יותר על מה שהדובר מתכוון לומר. "הרבה מהמדף NLP נוטה להיות רדודה, אין לנו טכנולוגיה שמעניקה לך משמעות למשפטים" הוא אמר. כלי עיבוד סטטיסטי ושירות הגדרת מילים כגון WordNet יכולים לסייע בהגדרת מילה, אך גם ביחסים של מילה, כך שמערכת תדע כי, למשל, "חברה בת" היא חלק מ"חברה ".

עוד נדרשת גם תקשורת דו-כיוונית בין המשתמשים לבין המחשבים. כאשר מדברים על הצרכים שלהם, אנשים עשויים לספק מידע ללא סדר מסוים. זה צריך להיות עד המחשב כדי להרכיב את המידע הזה ולא נטל על המשתמש עם שאלות שתשובותיהם כבר מסופק.

"זה העתיד, זה באמת מה שאתה רוצה מערכות לעשות, ואנחנו יכולים לבנות שיח מערכות שיוכלו לתמוך בטווח המורכבות הזה ", הוא אומר.

כדי להדגים רעיון זה, אלן וצוות חוקרים עיצבו תוכנית הנקראת 'קרדייק', שיכולה לחקות את השאלות שאחות תבקש לחולה עם מחלת לב. התוכנית נוצרה במימון מהמכון הלאומי לבריאות בארה"ב. עם מערכת זו, ברגע שמשתמש מספק מידע, המערכת לא תבקש זאת שוב, אמר אלן. המערכת היתה מבינה מה החומר שכבר סופק ומה שצריךתוכנית נוספת שתוכננה על ידי אלן וצוותו, הנקראת מחרשה, יכולה ללמוד כיצד לבצע משימות נפוצות במחשב. "זוהי מערכת המאפשרת לך להשתמש בדיאלוג כדי לאמן את המערכת שלך איך לעשות דברים בשבילך", הוא אומר.

לדוגמה, אלן הוכיח את התוכנית ללמוד כיצד למצוא מסעדות בקרבת מקום באמצעות דפדפן. המשתמש היה פותח דפדפן, נווט לאתר מאתר מסעדה, הקלד את סוג המסעדה המבוקשת ואת המיקום, ולאחר מכן גזור והדבק את התוצאות לדף ריק. המשתמש תיאר כל צעד כפי שהוא בוצע.

תוך כדי כך, Plough תיעד כל צעד, ויגיב בצורה קולית כאשר הוא הבין את הצעד. מאוחר יותר, כאשר המשתמש רוצה לחפש מסעדה אחרת, התוכנית יעבור את כל אותם מהלכים, לייצר רשימה נוספת של מסעדות באופן אוטומטי. הסוכנות למחקר מתקדם של הסוכנות למלחמה במימון בארה"ב מימנה את הפיתוח של תוכנית זו.

נתונים נוספים הם המפתח למערכות עיבוד שפה יותר אנושיות, הסכימו המדען הראשי של מיקרוסופט לדיבור לארי האק, בשיחה אחרת בכנס. "אם אין לך את הנתונים, זה לא משנה עד כמה האלגוריתמים שלך מתוחכמים", הוא אומר. "מקום אחד למצוא נתונים נוספים יהיה בשאילתות של מנוע החיפוש, הוא הציע. שירותי מנוע החיפוש מקבלים מספר עצום של שאילתות, שכולן מקושרות לתשובות. "אני רואה את החיפוש כבן דוד קרוב לטכנולוגיה לעיבוד שפה", אמר האק. בימים אלה, אנשים מאומנים לבנות את שאילתותיהם כמערכת של מילות מפתח. במקום זאת, אם משתמשים היו צריכים להקליד משפטים מלאים המתארים את מה שהם צריכים, מערך הנתונים שהתקבל יכול היה להתקדם דרך לסייע למערכות להבין טוב יותר את מה שאנשים מחפשים.

האק חזה שככל שיותר אנשים משתמשים בשירותי חיפוש מופעלים קול ממיקרוסופט ומ- Google, הם יהיו רגילים יותר לבניית שאילתות שלהם כמו משפטים מלאים, אשר לאורך זמן יכול לעזור למערכות NLP טוב יותר לצפות את צרכי המשתמשים.

יואב ג'קסון מכסה את התוכנה הארגונית וטכנולוגיה כללית חדשות חמות עבור

חדשות IDG שירות

. בצע יואב בטוויטר ב @ Joab_Jackson. כתובת הדואר האלקטרוני של יואב היא [email protected]