ความต่างระหว่าง Data lakes และ Data warehouses 

ความต่างระหว่าง data lakes และ data warehouses นับตั้งแต่ที่ google บัญญัติศัพท์ว่า big data ขึ้นมาเมื่อหลายปีก่อนคราวนี้ก็มีศัพท์ใหม่ๆ ขึ้นมาโดยที่ขึ้นอยู่กับว่าเราให้ความสนใจไปที่ส่วนใด เรามาดูกันเรื่องความแตกต่างของ data lakes และ data warehouses กันว่าทั้งสองอย่างนี้ช่วยให้คุณจัดการกับข้อมูลได้อย่างไร 

สำหรับผู้เริ่มต้นเรียนรู้ในสาย data โดยมีโซลูชั่นส์คือ big data ของข้อมูลลูกค้า เราสามารถโฟกัสให้แคบลงมาโดยใช้ชื่อว่า data lakes  

เรามาดูเรื่องของ Data Warehouses กันก่อน ความหมายของมันคือ การเก็บรวบรวมข้อมูลไว้ในส่วนกลาง (repositories) คอมพิวเตอร์ ซึ่งข้อมูลต้นทางจะเป็นข้อมูลแหล่งเดียวกันหรือแหล่งที่ต่างกันก็ได้ ซึ่งจะเก็บทั้งข้อมูลที่เป็นปัจจุบันและข้อมูลอดีตเพื่อสร้างเป็นรายงานให้หัวหน้าได้ดู เช่นการเปรียบเทียบประจำควอเตอร์,การเปรียบเทียบประจำปี 

จุดมุ่งหมายของ data warehouses ก็เพื่อเก็บข้อมูลจำนวนมาก ซึ่งส่วนมากแล้วจะเป็นข้อมูลที่มีโครงสร้างมีแบบแผนแบบเดียวกันโดยข้อมูลยังไม่ถูกโหลดจาก data warehouse จนกว่าจะมีการเรียกใช้   

เราจะรู้ถึง ความต่างระหว่าง data lakes และ data warehouses ได้อย่างไร ? 

Data lakes จริงๆแล้วความหมายของมันก็คือ data mart ที่เป็นซับเซตของ data warehouse ที่ผ่านกระบวนการ cleanse, package และเปลี่ยนแปลงให้เป็นโครงสร้างอย่างง่ายมาแล้ว ขณะที่ data lakes คล้ายกับส่วนของน้ำที่มีสถานะเป็นกลาง ข้อมูลจะไหลมาจาก stream (หรือระบบ source system) ผู้ใช้งานสามารถนำมันมาตรวจสอบโดยการสุ่มตัวอย่างมาจำนวนหนึ่งก็ได้  

ซึ่งบางครั้งคำนิยามของ data lakes ยังดูไม่ชัดเจนเท่าไหร่ เรามาสรุปอีกครั้งว่า  data lakes มันคือข้อมูลทั้งหมดที่ถูกโหลดมาจากต้นทางโดยที่ไม่มีการเปลี่ยนรูปของข้อมูล, data จาก data lakes นี้ต้องมีการจัดรูปแบบให้เป็นหมวดหมู่ (schema) เพื่อประโยชน์ในการวิเคราะห์ข้อมูลต่อไป ซึ่งสิ่งต่างๆกันระหว่าง data lakes และ data warehouse ที่ชัดเจนที่สุดคือ  

Data Lakes ยังคงเก็บข้อมูลทั้งหมดไว้ แต่ data warehouses เก็บเฉพาะข้อมูลที่สัมพันธ์กัน (Relational database) ช่วงที่มีการเขียนโปรแกรมใน data warehouse มันจำเป็นต้องใช้เวลาในการวิเคราะห์ข้อมูลต้นทางเพื่อให้ตรงตาม business และการจัดโปรไฟล์ของข้อมูล โครงสร้างข้อมูลที่เป็นระเบียบจะนำเข้าสู่รายงานได้ ซึ่งกระบวนการตัดสินใจต้องดูข้อมูลที่อยู่ใน data warehouses หรือบางครั้งเกิดข้อมูลที่ไม่สามารถจัดกลุ่มได้มันก็ต้องนำออกจาก data warehouses เพื่อประหยัดพื้นที่ในการจัดเก็บ   

ในทางตรงกันข้าม data lakes เก็บข้อมูลทั้งหมด ไม่ใช่เพียงข้อมูลที่เป็นปัจจุบัน แต่ว่ามันเก็บ data ทั้งที่ใช้งานได้และใช้งานไม่ได้ เพราะว่า data ที่ไม่ถูกเรียกใช้งานในวันนี้อาจมีความสำคัญในวันข้างหน้าก็ได้ ดังนั้นเราอาจกล่าวได้ว่า data lakes จะใช้พื้นที่ในการจัดเก็บข้อมูลมากกว่า data warehouses ขนาดของ data lakes จะเก็บในหลัก petabytes และใช้ในงานที่เกี่ยวกับ big data โดยเฉพาะ 

Tags

What do you think?

Related articles