ווב אנליטיקס ספאם – להסתכל לספאם בלבן של העיניים

robber with his arms crossed

תופעת הספאם בגוגל אנליטיקס שוררת במערכת מזה שנים, אך זו החלה לרקום עור וגידים רק בתחילת 2015. מאז הפכה לבעיה אקוטית בקנה מידה עצום שמסוגלת להשפיע גם על מערכות אנליטיקס שהן אינן גוגל אנליטיקס. מכל קצוות העולם עולים עשרות פוסטים בנושא שמסבירים למה כמה ובעיקר איך להיפטר מהספאם הטורדני, חשבתי שגם לנו מגיע מאמר מקיף בנושא שיעשה קצת סדר בבלאגן.

אם אתם קוראים את המאמר הזה ואתם חשים חדורי רגשות, סביר שגם אתם נפלתם קורבן להצפות ספאם ואתם בטח רוצים לשלוט בספאם במקום שהספאם ישלוט בכם. בפוסט הזה אתן סקירה על סוגי ספאם שקיימים היום, את נקודת המבט שלי על הנושא וגם אנסה למצוא לכם פיתרונות יישומיים.

באים בגלים, חיפוש המונח “google analytics spam” ב-Google Trends ב-5 שנים האחרונות:

עם הזמן רמת התיחכום למניעת הספאם עלתה ומנגד ספאמרים מגיבים עם שיטות הספאמה מתוחכמות משלהם. כך מתחולל לו משחק תופסת בין ספאמרים שמלכלכים חשבונות אנליטיקס למשתמשי גוגל אנליטיקס שמנסים לבלום אותם – לא תמיד בהצלחה. הקורבנות הם עשרות אלפי עסקים בעיקר בקרב אתרים קטנים-בינוניים שסך הכל רוצים לעבוד עם גוגל אנליטיקס והדבר האחרון שבא להם להתעסק איתו זה ספאם.

ברמה הפילוסופית, לא יכולה להיות שיטה אחת למניעת ספאם שיכולה לעבוד לאורך זמן מבלי שנצטרך לתחזק אותה. לא משנה כמה משוכללים נהיה, הראש הקרימינלי של הספאמר תמיד יעבוד באותה שיטה: כל עוד העסק מרוויח, הוא תמיד יחפש דרכים להצליח לעקוף את המגננות. השאלה היא האם בסופו של דבר יהיה פה ג’ונגל של ספאם או כמה עלים יבשים שצריך לטאטא.

גדולים וקטנים, אף אחד לא חף מפשע

בלי להזכיר שמות, כל גוף או אדם שמספק או נותן גיבוי ל”תנועת זבל” בתשלום זה בעייתי ונוטף מזה ריח רע של עבירה על חוק הספאם. במקרים שעליהם אני מדבר אין שקיפות בנוגע לזהות של אותו אדם שנותן את השירות ובטח שאין מידע בנוגע לאתרים מהם מגיעה התנועה כולל מדדי Impressions ו-Clicks. לא סתם היא זכתה לכינוי “תנועת זבל”, פשוט כי גם איכות התנועה ברוב המוחלט של המקרים לא שווה שום דבר.

איך כל זה קשור לספאם בגוגל אנליטיקס? השנים האחרונות מלמדות שאלו העוסקים במלאכה זו משתמשים גם בספאם גוגל אנליטיקס כמקור להשגת תנועה.

תנועת ספאם לצד תנועה ללא ספאם. מישהו רכש “תנועה איכותית” ב-15$ לשבועיים?

1797-spam-attack-december-graph

מה יוצא למספימים מזה?

מכירת תנועת זבל, מכירת רשימות רימרקטינג, אפיליאציה לאתרים כמו אלי אקספרס… אני מניח שלא חסר מה לעשות עם תנועה בימינו, אבל יש כאלה שדווקא עושים זאת כאקט נקמה בגוגל. אחד מהם (וכנראה היחיד) עונה לשם ויטאלי פופוב (Vitaly Popov) שעל פי השמועות ברשת, גוגל חסמו לו חשבון אדסנס ועל כך הוא חש בצורך לנקום. ממה שידוע לי לפחות, הוא הראשון שזיהם באופן משמעותי עשרות אלפי חשבונות בתחילת 2015 ובכך למעשה התחיל את כל הטררם הזה.

באיזה שיטות מספימים משתמשים?

ספאם זה משהו דינמי, חלק מהשיטות והסוגים שיפורטו כאן ובהמשך יכולים להשתנות מהיום למחר למעט כמה שיטות פופלאריות במיוחד. לא חסרים סדקים בגוגל אנליטיקס שספאמרים יכולים להסתנן לתוכם, אתם תצטרכו להיות עם היד על הדופק ולהבחין בהתנהגויות חריגות בדאטה מעת לעת. סביר שאת הספאם שלהם הם ישאירו במקומות גלויים לעין שעליהם אפרט בהמשך.

  • ספאם באמצעות Measurment Protocol: פריצת הדרך בתחום הייתה מספר שנים לאחר שגוגל אנליטיקס הוציאה את הפרוטוקול החדש יחד עם המעבר הידוע ל-Universal Analytics ב-2012. הפרוטוקול מאפשר לשלוח מידע לחשבון אנליטיקס שלכם מבערך כל דבר שמחובר לאינטרנט. לקח לספאמרים שנתיים לעשות אחד ועוד אחד ולבנות מכונה שעוברת על עשרות אלפי מספרי חשבונות בגוגל אנליטיקס ולהציף אותם אחד אחד בספאם באמצעות פרוטוקול זה, מרחוק ובלי הצורך להיכנס לאתר שלכם. בדרך כלל אתם תראו שם Bounce Rate של 100% ותנועה שמגיעה רק לפרופרטי הראשון או השני בחשבון -UA-XXXXXX-1 כי שם סביר שימצאו האתרים החשובים שלכם.
  • ספאם באמצעות זחלנים (Crawlers): ראו המספימים כי טוב ויצרו מכונה משוכללת יותר חדשה: רובוט המדמה גלישה של יוזרים אמיתיים באתר. פוטנציאלית, יוזרים פיקטיביים אלה יכולים להיכנס לכל מערכת ווב אנליטיקס שמופעלת באתר, לא רק גוגל אנליטיקס. נכון לגירסתו הנוכחית, מסלול הרובוט תבניתי למדי כשביקור ממוצע עומד על כ-2 עמודים לסשן.

מסלול תבניתי למדי, שלושה מסלולי רובוט שהודבקו זה על זה כשקופיות:

1797-crawlers

דבר אחד תמיד יאפיין את ביקורי הספאם וזה שנכון לעכשיו הם לא מתאמצים לבצע פעולות משמעותיות באתר חוץ מגלישה בכמה עמודים. הספאם בימינו עדיין לא ממש מסוגל לבצע המרות כך שאם אתם חושדים במקור תנועה מסויים שלצורך העניין קונה באתר עם מזהה הזמנה אמיתי, הסיכוי שזה ספאם קלוש.

איפה הם מסתתרים? סוגי ספאם בגוגל אנליטיקס

אלו הסוגים הפופלארים שנצפו עד היום באנליטיקס, הספאמרים אוהבים להציב את הפירסום שלהם במקומות חשופים לעין באנליטיקס ושיראו טבעיים כדי ליצור בילבול ושאולי ניתן צ’אנס אמיתי לאתרים שהם מפיצים ונכנס:

  • ספאם אתרים מפנים: לדעתי הספאם הנפוץ ביותר, חביב הספאמרים, שכן זה יוצר מצג שווא שבו האתר שלכם מקבל תנועה מהאתר המפרסם (תופעה המוכרת בשם Ghost Referral).
    בדרך כלל יהיה לכם קל לזהות אם מדובר בספאם או לא, אבל אם אתם לא בטוחים, גשו לגוגל (לא לאתר שלהם!) ותעשו חיפוש על האתר שאתם רואים ותוסיפו לזה את השם המותג שלכם site:checkme.com trackingcraft. אם הוא לא מופיע שם זה ככל הנראה ספאם. שימו לב שאתם לא נופלים על מנוע חיפוש לא מוכר או על מקור תנועה שפשוט לא תייגתם.
  • ספאם כתנועה אורגנית: בדרך כלל מכיל את המרכיב הפירסומי במילות חיפוש אורגניות במימד ה-Keyword.
  • ספאם ב-Hostname: מימד ה-Hostname מייצג את הדומיין שממנו נאסף המידע של האתר שלכם. בניסיון להציג עצמם תמימים משהו, ספאמרים נוהגים לשנות את המידע לדומיינים כמו google.com. לפעמים גם שם מופיע המרכיב השיווקי של הספאם.
  • דיירקטים: תנועה ישירה חסרת תכלית שמגיעה לחשבון בכמויות מרגיזות שמתערבבות עם הדיירקטים טבעיים. אלה אם מתחילים לעבוד בפינצטה זה אומר שלא ניתן להסתמך על directs בהקשר של התנהגות וצריך להוציא את כל מקור התנועה הזה החוצה (לפחות לתקופה שבה הוצפנו בספאם מהסוג הזה). אני לא חושב שיש לספאמר איזשהו אינטרס לדפוק לנו את הנתונים, מניח שזו תופעת לוואי של הרובוט.
    בלתי אפשרי לבצע הפרדה, סינון לפי תנועה ישירה (מתקפת הספאם מימין):

    1797-directs-issue

  • ספאם במימד השפה: בין ערכים כמו en-us, he-il מופיע ספאם שהסוואה זה לא הצד החזק שלו, הוא מאד בולט ומטריל. ספאמרים אוהבים את המימד הזה כי הוא מופיע בדוח הראשי של גוגל אנליטיקס: Audience Overview כך שקשה לפספס את זה.
  • ספאם עמודי הנחיתה: אותה גברת בשינוי אדרת…
  • ספאם באיבנטים: פעם היה ספאם שזיהם את איזור האיבנטים שהציע לאנשים להגיע לאתר שמציג כביכול איך ליצור איבנטים בגוגל אנליטיקס – ככל הנראה לצורכי רימרקטינג פתטי.

איך להתמודד עם ספאם בגוגל אנליטיקס

שימוש ב-Advanced Segment

הפיצ’ר Advanced Segment בגוגל אנליטיקס יודע להחזיר חלק מקהל הגולשים באתר לפי תנאים שיוגדרו לו. במקרה שלנו, הדרך שבא נרצה לנצל את הפיצ’ר זה ליצור סינון על הדאטה שלנו שיוציא החוצה את כל הספאם וישאיר אותנו עם החלק הבריא שלו.

נכון, זו אכן לא הדרך שבא גוגל היו מצפים שנעבוד עם הכלי שלהם, אבל בינתיים זה הפיתרון הטוב ביותר לאתרים קטנים\בינוניים. אומר בזהירות שבאתרים גדולים הספאם לא ממש מורגש בין מאות אלפי סשנים.

הדרך לעבוד עם הפילטר פשוטה למדי: אני משתמש בהתאמה מסוג “is one of” שמאפשרת לי לסנן ספאם באופן יעיל יחסית – שדה אחד רחב במקום 30 שורות ש-OR מפריד ביניהם.

מצויין לאתרים קטנים\בינוניים: שימוש ב-Advanced Segments להוצאת ספאם:
1797-advanced-segments

טיפ 1: השדה המסוג הזה לא ידידותי כלל לעידכונים. היעזרו בהעתק הדבק לקובץ טקסט כדי לעדכן את הרשימה. שימו לב שכל שורה עובדת לפי התאמה מדויקת (Exact).
 
טיפ 2: הגדירו את הסגמנט כשיתופי (ראו בתמונה Change בצד ימין למעלה) כדי שלכל יוזר שיש לו גישה ל-view תהיה לו גישה גם לסגמנט.

זו השיטה הכי חשובה שאתם רוצים לדעת לתפעל ולהסתמך עליה. כפי שציינתי בחלק הקודם של המאמר, אתם רוצים להיות עם היד על הדופק ולהשתמש\לעדכן את הפילטר הזה בכל פעם שאתם מוצפים בספאם.

השיטה הזאת היא המועדפת עלי מהסיבה הפשוטה: היא היחידה מכל פיתרון שתקראו עליו שמסננת ספאם חדש רטרואקטיבית. אף שיטה לא יכולה לחזות ספאם חדש ולחסום אותו מראש, לכן נדרשת שיטה שיכולה לעבוד רטרואקטיבית. בשיטה זו אנחנו גם למעשה לא פוגעים באיסוף הדאטה כך שתמיד ניתן יהיה “לשחזר” מקור התנועה שסונן בטעות.

אם נפלתם קורבן להרבה ספאם, ככל הנראה שלא תהיה לכם סבלנות להוציא את כל אחד מהספאמרים אבל כל עוד תסננו את הגדולים שבניהם זה ישאיר את הקטנים על אש קטנה חסרת משמעות. מהניסיון שלי, בפעם הראשונה שתכינו את הרשימה זה יכול להיות די סיזיפי אבל לאחר מכן זה משחק ילדים להפטר מספאם חדש.

טיפ 3: צרו סגמנט במקביל עם אותה רשימה רק עם תנאי Include שיראה לכם את המצב ההופכי – רק את הספאם. זה עוזר לראות תמונה חד משמעית שאנחנו אכן מפלטרים החוצה רק את מי שצריך להיות בחוץ.

דברים שצריך לקחת בחשבון שמשתמשים בשיטה זו:

  1. שימוש בסגמנט מותאם אישית שכזה נחשב לתנאי שעשוי לעורר את מצב הדגימה בגוגל אנליטיקס (Sampling). אז כל עוד אתם אתר בינוני קטן תוכלו לנתח משהו באיזור ה-3 חודשים ללא דגימה – תלוי כמובן בכמות הדאטה שאתם צוברים.
  2. אם אתם עובדים עם מספר סגמנטים, בכל פעם שספאם חדש יגיע תצטרכו לעדכן את כל הסגמנטים שלכם במקביל. כשזה יקרה, תוכלי להעזר בתפריט Share Assets בממשק אדמין על מנת לעשות זאת ביעילות.

שימוש בפילטרים בגוגל אנליטיקס:

  • פילטר Hostname: צרו פילטר על בסיס Hostname שיכיל רק תנועה מהאתר שלכם. ממליץ לכם לעשות את זה כפרקטיקה טובה בלי קשר לספאם.

    1797-filter-hostname

  • פילטר Language: אם חשבונכם הוצף בספאם במימד השפה, ניתן להיפטר מזה ע”י פילטר על שדה Language Settings עם הרגקס המושאל הבא שבסך הכל מוציא מחרוזות ארוכות מדי וכאלו שמכילות תווים שלא אמורים להיות במימד השפה:

    .{15,}|\s[^\s]*\s|\.|,|\!|\/
  • פילטרים להוצאת ספאם אתרים מפנים: הרעיון של הפילטר הזה הוא למנוע מספאם להיכנס ל-view שלכם מראש, אך לא לחסום אותו רטרואקטיבית. פילטר כזה יצריך תחזוקה שוטפת ומכיל מגבלה של 256 תווים כך שבלב מסויים תצטרכו לייצר עוד ועוד פילטרים עם רגקסים ארוכים ומייגעים – בשלב מסויים זה מעיק ולכן עבדכם הנאמן פחות מחבב את השיטה הזו. יש המאמצים רשימות ארוכות של ספאם שתקף אתרים אחרים, דעתי על רשימות שכאלה בהמשך. בינתיים שיטה זו יעילה במקרים שהספאם ממשיך להגיע לאנליטיקס באופן תדיר. אם אתם משוכנעים שזה ספאם ניתן לחסום אותו לאלתר בשיטה זו.

שיטות אחרות שרצות ברשת:

  • שימוש ב-Custom Dimension טריק זה יתעתע כל ספאם שיגיע דרך ה-Measurment Protocol (שזה לא באמת בא לבקר אצלכם באתר). השיטה עובדת כך:
    – פותחים מימד מותאם אישית מסוג hit.
    – שולחים את כל ה-hits מהאתר עם סימן היכר תחת מימד זה.
    – לבסוף יוצרים מסנן שמאפשר כניסת מידע ל-View רק בתנאי שיש את סימן ההיכר.

    הבעיה היחידה בשיטה הזו היא שכעת אתם משועבדים לסימן ההיכר הזה – היה ושכחתם להוסיף אותו באחד ההיטים, הדאטה ששלחתם לא יאסף.

  • Exclude all hits from known bots and spiders: סמנו את האופציה הזאת בהגדרות של ה-View. זה אמור לכסות אתכם בפני בוטים וזחלנים של מנועי חיפוש שמוכרים לגוגל (זה לא נחשב לסוג של אנטי ספאם רשמי של גוגל אנליטיקס).
  • חסימות ברמת צד שרת באמצעות htaccess: פילטר חזק למדי שמסוגל לחסום Crawlers שמגיע עם ספאם ב-Referrer אבל מצריך תחזוקה ותקשורת מול מפתח שיודע את המלאכה. העיקרון דומה לזה של השיטה “פילטרים להוצאת ספאם אתרים מפנים” רק שהפעם הספאם לא יצליח כלל לעלות את האתר. חפשו בגוגל כיצד יש לעשות זאת, זה קצת כבד מדי לפוסט הזה.

דעתי בכל הנוגע לעבודה עם רשימות מוכנות מראש:

ברחבי האינטרנט ניתן למצוא רשימות ארוכות המכילות מאגר של ספאם שניתן לקחת ולהשתמש כפילטר. צצו גם כלים מתוחכמים שעושים שימוש ב-Menegment API של גוגל אנליטיקס ומעדכנים פילטרים בחשבון באופן אוטומאטי.

העניין הוא כזה: אנחנו רוצים פיתרון יעיל ושישרוד לאורך זמן. רשימות, גדולות אשר יהיו, עשו עבודה לא רעה בעבר כשלא היה יותר מדי ספאם ושהיה ניתן להשתלט על +- 100 הספמות ידועות לשמצה. ככל שהזמן עובר השיטה הזאת מאבדת מערכה מ-2 סיבות עיקריות:

  • הראשונה היא שיש אוקיינוס של ספאם ואין זה מובטח שהספאם שאצלכם בהכרח נכלל ברשימות האלה.
  • הסיבה השנייה הנה שלרשימה שכזו לוקח זמן להתעדכן. מי שמזין אותה הם אנשים שחווים את הספאם בעצמם. עד שאלֵה יעדכנו את הרשימה שלהם ועד שזו תעודכן בחשבון שלכם, הספאם יוכל להיכנס באלפים לאנליטיקס שלכם. שלא נדבר על כך שהספאם יכול להגיע לחשבון גוגל אנליטיקס שלכם לפני שהוא מגיע למי שמעדכן את הרשימות ואז כל האוטומציה הזאת היא כשל אחד גדול.

השיטה בה נשתלים פילטרים מרחוק דרך ה-Menegment API מייצרת עשרות פילטרים בכל View שלא מקלות בכל הקשור לתחזוקת מסננים. עוד בעיה עם השיטה הזאת היא שהעידכונים עשויים להיות ידניים. כלומר, אתם אלה שצריכים לבוא באופן ידני וללחוץ על כפתור שיעדכן את הרשימות – לא פרקטי, ראו סיבה #2 למעלה.

גוגל לא מסוגלת לפתור את הבעיה?

מי שחושב שגוגל יכולה לפתור את הסיפור בקלות כנראה לא מבין עד כמה הבעיה מסובכת וסביר שאם היה לכך פיתרון פשוט, גוגל הייתה מיישמת אותו לפני שנים. האם גוגל עובדת כעת במרץ על כלי שכזה? יש שמועות אומרות שכן, אלו שאיבדו את האמונה יגידו שלא, מה שבטוח זה ששנתיים אנחנו סופגים לא מעט אש ועד כה לא הייתה הכרזה רשמית בנושא.

לו הייתי גוגל הייתי עובד על איזשהו כלי חכם עם יכולת למידה שידע לאבחן ספאם על בסיס נתוני עבר והסתכלות רוחבית על חשבונות, שידע להתריע על ספאם חדש שתוקף את החשבון ויאפשר למשתמשים להעלים אותו רטרואקטיבית מבלי שזה יחולל סאמפלינג. יש צורך במנגנון מתוחכם לא פחות מזה של ג’ימייל. זה ככל הנראה לא יהיה פיתרון מושלם של לחיצת כפתור וגמרנו אבל לפחות הספאמר שלנו ירשום לעצמו לא מעט כשלונות.

סיכום:

עולם הווב אנליטיקס עובר בשנים אלה סוג של טלטלת ספאם. מהניסיון שלי בנושא, הפיתרון האידיאלי כרגע זה להיצמד לפילטר מבוסס Advanced Segments ושכל אחד יעשה את ניקיון הבית שלו.

לספאם אין תיעוד רשמי, מי שמושך בחוטים ונותן את הטון הם נכון לכרגע הספאמרים. בתנאים כאלה קשה לכתוב מאמר בידיעה שדברים יכולים להשתנות מיום ליום ומיוזר ליוזר.

אני מניח שהספאמרים לא ירימו ידיים בקלות, בטח לא כשידם על העליונה. אנחנו נמשיך להיאבק בספאם עד (ובתקווה) שגוגל יוצאו פיתרון לבעיה, ועד אז: It’s Sabotage