bigdata แบบ hadoop อนาคต it

ถ้า โลโล้  เป็นรูปช้าง   big Data การจัดเก็บข้อมูลขนาดใหญ่  เป็นอีกหัวข้อหนึ่งที่เริ่มมีการกล่าวถึงกันอย่างกว้างขวาง ซึ่งถ้าเราดูจาก Google Trends ก็จะเห็นได้ว่าทั่วโลกก็เริ่มให้ความสนใจในการค้นคำว่า  Big Data ตีคู่มากับคำว่า  Cloud Computing  การเก็บข้อมูลบนท้องฟ้า  อย่างที่คนไทยพอจะคุ้นๆ แล้ว ส่วนหนึ่งก็อาจเป็นเพราะว่าข้อมูลในโลกของอินเตอร์เน็ตเรื่มมีเยอะขึ้น

hadoop-pic1

 

 

โดยเฉพาะข้อมูลจาก Social Network ที่ผู้คนต่างเข้ามาอัพเดทข้อมูลตลอดเวลา นอกจากนี้ราคาของ Storage ก็ถูกลงทำให้คนเริ่มที่จะเก็บข้อมูลเยอะขึ้นเรื่อยๆ ซึ่งทาง EMC/IDC ได้ทำตาดการณ์ว่าในปี 2015 จะมีข้อมูลดิจิตอลรวมกันประมาณ 7,910 ExaBytes  หน่วยนับ   7910  millionterabytes = 7910 billiongigabytes.  ถ้านึกภาพไม่ออกก็ให้เอาคอมพิวเตอร์ที่มี harddisk 1 tb มาพ่วงกันอยู่ 7000 กว่าล้านเครื่อง

 

 

trends

 

 

หลายๆคนยังเข้าใจว่า Big Data คือการที่มีข้อมูลดิจิตอลขนาดมหาศาล แต่จริงๆแล้วเรามักจะนิยามความหมายของ Big Data ด้วยคำย่อว่า 3V คือ Volume, Velocity และ Variety อย่าไปจินตนาการเลยครับ  มันเยอะมากว่าที่สมองเราจะจินตนาการออก 

Volume: คือมืจำนวนข้อมูลมากเกินกว่าระบบฐานข้อมูลแบบเดิมๆจะสามารถที่จะจัดการได้  เช่น ฐานข้อมูลเก่า ๆ  ลืมไปได้เลย 

Velocity: คือข้อมูลจะมีการเปลี่ยนแปลงอย่างรวดเร็ว เช่นข้อมูลจาก Social Media ข้อมูลการซื้อขาย ข้อมูล Transaction การเงินหรือการใช้โทรศัพท์  หรือข้อมูลจาก Sensor

Variety: คือข้อมูลจะมีหลากหลายรูปแบบทั้ง Structure และ Unstructure ซึ่งอาจจะอยู่ในรูปทั้ง RDBMS, text, XML, JSON บน แอพลิเคชั่น หรือ Image  จากมือถือ  หรือไฟล์คอมพิวเตอร์  

ดังนั้นการจัดการ Big Data จึงจำเป็นต้องใช้ระบบการเก็บข้อมูลหรือการประมวลในรูปแบบอื่นๆที่อาจไม่ใช้เพียงแค่ฐานข้อมูล RDBMS แบบเดิมๆ ซึ่งหากเราพิจารณา Ecosystems ของ  Big Data เราจะสามารถจะเห็นได้ว่ามีความเกี่ยวข้องกับโครงสร้างพื้นฐานไอทีหลายๆด้านดังรูป

hadoop

 

เทคโนโลยี Hadoop

ซอฟต์แวร์ที่สำคัญตัวหนึ่งที่มีการนำมาใช้กันมาในระบบ Big Data คือ Hadoop เพราะ Hadoop เป็น Open Source Technology ที่จะทำหน้าที่เป็น Distributed Storage  ก็คือการกระจาย server ออกไปตามที่ต่างๆ  ที่สามารถเก็บข้อมูลขนาดใหญ่ที่เป็น Unstructure และนำมาประมวลผลได้ โดยองค์ประกอบหลักๆของ Hadoop จะประกอบด้วย Hadoop Dustributed File System (HDFS) ที่ทำหน้่าที่เป็น Storage และ MapReduce ที่ใช้ในการพัฒนาโปรแกรมประมวลผล ทั้งนี้โครงสร้างด้าน Hardware ของ  Hadoop  จะใช้เครื่อง  Commodity Server  จำนวนมากต่อเป็น Cluster กัน

 hadoopenv

 

ในปัจจุบันหลายๆองค์กรจะใช้ Hadoop Technology ในการพัฒนา Big Data อาทิเช่น Facebook, Yahoo และ Twitter โดยจะมีเครื่อง Server    > 1,000  เครื่อง ทั้งนี้ขึ้นอยู่กับขนาดข้อมูล นอกจากนี้ Technology Vendor ต่างๆอาทิเช่น Oracle, IBM, EMC หรือแม้แต่ Microsoft  ต่างก็นำ Hadoop  มาใช้ในเทคโนโลยีของตัวเองในการพัฒนาผลิตภัณฑ์ทางด้าน Big Data

ทั้งนี้ Hadoop จะไม่ได้นำมาแทนที่ระบบฐานข้อมูลเดิมแต่เป็นการใช้งานร่วมกันทั้ง Database แบบเดิมที่เป็น  Structure Data และการนำ Unstructure Data ขององค์กรที่อาจเก็บไว้ในระบบอย่าง Hadoop เข้ามาพิจารณาร่วมกับข้อมูลอื่นๆภายนอกเช่น Facebook แล้วนำมาวิเคราะห์ข้อมูลโดยใช้เครื่องมืออย่าง Business Intelligence  การวิเคราห์ข้อมูล  เชิงลึกทางธุรกิจ ไม่ว่าจะเป็นด้าน  การตลาด  หรือการวิเคราะห์  trend  ในอนาคต ดังรูป

hadoopbi

ซึ่งจากการสำรวจของ Unisphere Research  เมื่อพฤษภาคม 2013 ข้อมูลจากเว็บอื่น  พบว่าอุตสาหกรรมที่มีความสนใจจะพัฒนาเรื่อง  Big Data เป็นอันดับต้นๆคือ อุตสาหกรรมค้าปลีก อุตสาหกรรมธนาคารและประกันภัย อุตสาหกรรมโทรคมนาคม ซึ่งใช้ในการวิเคราะห์ลูกค้าและข้อมูลการตลาด นอกจากนี้หลายหน่วยงานก็มีการนำข้อมูลด้าน Social Media  อย่าง facebook เนี่ย  ตัวดีเลย มีการนำข้อมูลเชิงลึกเพื่อ  มาใช้วิเคราะห์ทางการค้าอย่างกว้างขวาง  หรือมาทำการวิเคราะห์เพื่อหาข้อมูลต่างๆ

 

การพัฒนา Big Data ที่สำคัญประการหนึ่งก็คือการปรับปรุงโครงสร้างระบบไอทีขององค์กรด้านข้อมูล (Information Infrastucture) รวมถึงการพัฒนาบุคลากรให้เข้าใจถึงเทคโนโลยีด้าน Big Data ใหม่ๆอย่าง Hadoop หรือ in-Momery Database และต้องมีการวางแผนในการนำข้อมูลทั้ง Structure และ  Unstructure จากภายในและภายนอกองค์กรมาใช้งาน รวมถึงการที่จะต้องหาผู้เชี่ยวชาญทางด้านข้อมูลที่เป็น Data Scientist  มาร่วมทำงาน  ดังนั้น  สำหรับคนกรที่เป็นขนาดเล็ก ไม่มีตังส์พอที่จะจ้างโปรแกรมเมอร์แต่ละเดือน  hadoop จึงเป็นปัจจัยที่ จะนำมาใช้ในองค์กรในอนาคต แน่นอน

 

 

nattanon

ณัฐนนท์ ลำสมุทร

Leave a Reply

Your email address will not be published. Required fields are marked *