סקירה של שיטות clustering למידע בוליאני

הבעיה שננסה לפתור בסרטון היא חלוקה לקבוצות (clustering) של משתמשי פייסבוק,

כאשר המידע היחיד שנתון לנו עליהם הוא רשימת הדפים שעשו להם לייק.

נסקור שיטות מבוססות מרחק (metric) שיטות matrix factorization ושיטות מעיבוד שפות טבעיות Bag of words.

ממוצעים בשירות חישוב זמן שהייה/נטישה

נדון בשתי גישות קלאסיות לחישוב זמן שהיה (dwell-time) עד לנטישה (churn).

גישה ראשונה בעזרת סטטיטיקה תדירותית/קלאסית, וגישה שניה בעזרת סטטיסטיקה בייסיאנית עם prior הממדל דעיכה אקספוננציאלית.