Data Sampling คืออะไร ทำไมคนใช้ GA4 ต้องรู้

การทำ data sampling ใน GA4 คืออะไร มีผลอย่างไรกับตัวเลขในรีพอร์ทData Sampling คืออะไร

Data Sampling เป็นการสุ่มข้อมูลบางส่วนออกมาจากทั้งหมดเพื่อใช้ในการคำนวนตัวเลขรีพอร์ท ซึ่งมักจะใช้ในกรณีที่มีข้อมูลจำนวนมาก โดยที่ใน Google Analytics ก็มีการทำ Data Sampling ด้วยเช่นกัน วิฌีการคือ GA จะใช้ตัวอย่างของข้อมูลกลุ่มหนึ่งในการคำนวณ และเมื่อได้ผลลัพธ์แล้ว ผลลัพธ์ที่ได้นั้นจะถูกปรับขนาดขึ้นเพื่อให้ได้ข้อมูลที่เหมาะสมและใกล้เคียงความเป็นจริงมากที่สุด

เพื่อให้เห็นภาพของการทำ Data Sampling มากขึ้นขอยกตัวอย่างดังนี้ เช่นหากเราต้องการประเมินจำนวนต้นไม้ในพื้นที่ 100 ไร่ (โดยที่การกระจายต้นไม้เป็นอย่างที่สม่ำเสมอ) การนับจำนวนต้นไม้ 100 ไร่อาจจะต้องใช้เวลาพอสมควร ดังนั้นการทำ Sampling จะใช้วิธีนับจำนวนต้นไม้ใน 1 ไร่ แล้วนำไปคูณด้วย 100 หรือนับจำนวนต้นไม้ในครึ่งไร่แล้วคูณด้วย 200 เพื่อให้ได้ข้อมูลแบบประมาณการของจำนวนต้นไม้ภายใน 100 ไร่ และมีความใกล้เคียงกับความเป็นจริงมากที่สุด

ทำไม GA4 ต้องใช้ Data Sampling

อย่างที่ได้กล่าวไปแล้วว่า การทำ Data Sampling จะช่วยลดเวลาการคำนวณหาข้อมูล และได้ข้อมูลที่เหมาะสมสามารถนำไปใช้งานได้ ซึ่งการที่ GA4 ใช้ Data Sampling ก็ด้วยเหตุผลหลักเดียวกันนี้แหละครับ เพราะบ่อยครั้งรีพอร์ทที่เราต้องการจำเป็นต้องใช้ข้อมูลจำนวนมาก เช่นเว็บไซต์เรามีขนาดใหญ่มีทราฟฟิคสูงมาก หรือเราต้องการดึงรีพอร์ทย้อนหลังเป็นช่วงเวลากว้าง เป็นต้น ซึ่งส่วนใหญ่การทำ Data Sampling นั้น GA4 ก็จะมักจะใช้เวลาที่เราดู Exploration หรือ Funnel Report เพราะเป็นรีพอร์ทที่จะต้องใช้ข้อมูลดิบในการคำนวณ

ปัญหาที่เกิดขึ้นจากการทำ Data Sampling

ส่ิงหนึ่งที่เราต้องเข้าใจก็คือ ตัวเลขข้อมูลจากการทำ Data Sampling นั้นย่อมไม่ใช่ตัวเลขที่ถูกต้อง 100% ถ้าจะพูดให้เห็นภาพอีกนิด ก็จะยกตัวอย่างเดิมคือ ถ้าเราต้องการทราบจำนวนต้นไม้ในพื้นที่ 100 ไร่ เราคงไมได้ต้องการจำนวนที่ถูกต้อง 100% เราก็จะต้องการข้อมูลแบบคร่าวเป็นตัวเลขกลมๆ ถูกไหมครับ เช่นกันใน Google Analytics การทำงานจริงๆ ส่วนใหญ่เราไม่ได้ต้องการข้อมูลที่ถูกต้อง 100% (หรือต่อให้เราต้องการในความเป็นจริงก็ไม่มีทางทำได้ เนื่องด้วยข้อจำกันทางเทคนิคอล รวมไปถึงเรื่องของการขอ Consent จากผู้ใข้งานเว็บไซต์)

ทีนี้ปัญหาของการทำ Data Sampling ก็คือจำนวนของข้อมูลที่ถูกสุ่มออกมาคำนวณหาผลลัพธ์แบบประมาณการนี่แหละครับ ถ้ารีพอร์ทที่เราดูบอกว่ามีการทำ Data Sampling จะกลุ่มตัวอย่าง 5% (ครึ่งไรจาก 100 ไร่) ย่อมมีโอกาสที่ข้อมูลจากคลาดเคลื่อนได้สูงกว่าการดึงข้อมูลจาก 10% ของกลุ่มตัวอย่าง (1 ไร่จาก 100 ไร่) นั่นหมายความว่ายิ่ง % ​การทำ Sampling น้อยเท่าไรข้อมูลก็มีโอกาสผิดพลาดคลาดเคลื่อนได้สูงมากขึ่น

คำถามที่ทุกคนอยากรู้คือ แล้วจะรู้ได้อย่างไรว่า GA4 กำลังทำ Data Sampling อยู่ โดยทั่วไปในส่วนด้านบนของรีพอร์ทจะมีไอคอนเครื่องหมายสามเหลี่ยมสีเขียวหรือแดงให้ลองคลิ้กดูจะเห็นจำนวนการทำ Sampling ว่าทำจาก Data กี่ % ตัวอย่างตามภาพด้านล่างนี้แสดงให้เห็นว่ารีพอร์ทนี้มาจากข้อมูล 62% ของ Data

การทำ data sampling ใน ga4 exploration

อีกส่ิงหนึ่งที่เกี่ยวข้องกับการทำ Data Sampling ก็คือเวลาที่เราดู หรือสร้างรีพอร์ทขึ้นมา เราอาจจะพบว่าต้วเลขที่ควรต้องเท่ากันระหว่างรีพอร์ทนี้กับอีกรีพอร์ทหนึ่งทำไมถึงไม่เท่ากัน และนี่เป็นคำถามที่ผมพบบ่อยมากในคลาสสอน ซึ่งการที่ตัวเลขไม่เท่ากันนั้น หลายครั้งก็เกิดจากการที่รีพอร์ททำ Sampling ด้วยจำนวนที่ไม่เท่ากันนั่นเอง

จริงๆ ยังมีประเด็นที่เกี่ยวข้องอื่นๆ ที่ทำให้ตัวเลขระหว่างรีพอร์ทไม่เท่ากัน โดยเฉพาะข้อมูลที่เกี่ยวกับ Demographic และข้อมูลที่เกี่ยวช้องกับความเป็นส่วนตัว เอาไว้จะมาพูดถึงกันอีกทีครับ

โดยสรุปที่อยากจะบอกคือ เวลาดูข้อมูลใน GA ให้เข้าใจเสมอว่าข้อมูลที่เราเห็นอยู่นั้นเป็น Trend data, not exact data

เพิ่มเพื่อน
ไม่พลาดทุกบทความ แอดเฟรนด์ LINE : @pornthep
สนใจคอร์สเรียน Google Analytics 4 หรือ In-house Training อ่านรายละเอียด

Leave a Reply