וורדפרס החלה את דרכה בעולם ה- CMS כפלטפורמת בלוגים ובמשך השנים התפתחה לכדי מערכת ניהול תוכן עבור קשת רחבה של אתרים במגוון תחומי עיסוק ופעילות. באתרי וורדפרס מתפרסמים תכנים רבים ובאתרי וורדפרס גדולים אף קיימת אפשרות למצוא את אותם תכנים בדפים שונים של אותו אתר. יתר על כן, קיימת תמיד אפשרות למצוא את אותו תוכן ואף תוכן זהה, בדפי אתרים שונים. על פניו, הדבר די נורמלי ואף מתבקש למצוא תוכן זהה (לא מועתק מפאת זכויות יוצרים) במקומות שונים ברחבי רשת האינטרנט. יחד עם זאת, נשאלת השאלה האם קיים סף אחוז של שכפול תוכן, שגוגל משתמש בו כדי לזהות ולסנן תוכן כפול?

המתודולוגיה של גוגל לאיתור תוכן משוכפל נותרה דומה במשך שנים רבות וכן, כל כך הרבה תוכן משוכפל הוא תמים וללא כוונות ספאם, עד שגוגל אפילו לא תעניש את התוכן הזה מכיוון שענישה של דפי אינטרנט על תוכן משוכפל עלולה להשפיע לרעה על איכות תוצאות החיפוש. גוגל בוחרת איזה עמוד להציג בתוצאות החיפוש ומסננת את הדפים הכפולים, על מנת לשפר את חווית המשתמש. שיטה זו נקראת קנוניזציה: גוגל מזהה את כל הדפים המציגים תוכן כפול ומוצאת "דף מנהיג" עבור כולם. בצורה זו קיימת כפילות בתוצאות החיפוש, אולם היא בנויה באשכולות. גוגל לא באמת מבצעת חישוב אחוזים כדי להגדיר אחוז תוכן כפול, אלא משווה סכומי בדיקה, כך שניתן לומר כי checksum הוא ייצוג של תוכן כסדרה של מספרים או אותיות ואם התוכן משוכפל, אז רצף מספרי הבדיקה יהיה דומה.

חשוב מאד לציין כי גוגל מענישה דפים באמצעות הורדת דירוג ואף הסרה מתוצאות החיפוש, כאשר מדובר בתוכן כפול אשר מפר זכויות יוצרים או מהווה ספאם. לפיכך, מומלץ לוודא כי התכנים המפורסמים באתר וורדפרס הינם תכנים מקוריים אשר יחודיים לאתר ואינם מהווים כפילות עם תכנים בדפים אחרים באתר, או כפילות עם דפים של אתרים אחרים.