วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Lecture9 (19/01/2011)

Data Management

Data warehouse process

1.       External Data and Operational Data – เก็บข้อมูลจากการดำเนินงานภายในจากแผนกต่าง ๆ ขององค์กร  และข้อมูลภายนอก เช่นข้อมูลคู่แข่ง โดยรวมถึง Atom data เช่น ราคาขายของคู่แข่ง จุดแข็งจุดอ่อนของคู่แข่ง
2.       Metadata -- extract ข้อมูลที่ต้องการจาก database มายัง Meta data โดยผ่านหลายส่วน เช่น Administration, Authorization, Resource, Business views, Automation Process, System Monitoring
3.       Data Staging – การทำ ETL (Extract Clean Transform Load) เลือกattribute เฉพาะรูปแบบที่เป็นประโยชน์ และโหลดลง Data cube
4.       Data Warehouse Business Subject – นำข้อมูลมาแปลงเป็น Data Warehouse โดยยึดมุมมองของแต่ละ subject
5.       Business View – ผู้บริหารจะใช้งาน Data Warehouse โดยผ่าน Dashboard เพื่อการวิเคราะห์และตัดสินใจ
6.       Information Catalog & Business Information – ข้อมูลที่ได้จะต้องใช้ได้จริง

·         Metadata คือ data ของ data บอกข้อมูลเกี่ยวกับส่วนประกอบของ Data Warehouse และบอกแนวทางของข้อมูล

·         The data mart คือ Data Warehouse ที่มีขนาดเล็ก สำหรับ SBU (Strategic business unit) มีข้อมูลและความเร็วในการตอบสนองน้อยกว่า data warehouse ซึ่งแบ่งออกเป็น 2 ประเภท คือ Replicated (dependent) data mart และ stand-alone data mart

·         The data cube คือ multidimensional database บางครั้งอาจเรียกว่า OLAP ทำหน้าที่เก็บข้อมูลที่ Transform และ Load เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ บอกความสัมพันธ์ของข้อมูลแต่ละมิติ สามารถมองจากภาพละเอียดเป็นภาพรวม และ จากภาพรวมเป็นภาพละเอียด

Business intelligence

คือ เป็นการรวมกันของ การออกแบบโครงสร้างระบบ เครื่องมือต่างๆ รวมถึงฐานข้อมูล Application และ Methodologies ทำโดยการเปลี่ยน data ให้เป็น information แล้วเปลี่ยนเป็น decision ตามด้วย action โดย BIประกอบไปด้วย 
1.       Reporting and analysis -- เป็นส่วนออกรายงานให้แก่ผู้ใช้
-          Enterprise Reporting System
-          Enterprise search  
-          Dashboards
-          Scorecard
-          Visualization tools
2.       Analytics – เครื่องมือในการวิเคราะห์ เช่น  Predictive analysis, Data, text, and Web mining, OLAP
3.       data integration – การเตรียมข้อมูลให้พร้อมวิเคราะห์ เช่น ETL และ EII

Online Analytical Processing (OLTP)
เป็นเครื่องมือเริ่มต้นของผู้บริหารที่จะใช้สารสนเทศช่วยในการวิเคราะห์ ทำได้เพียงระบุปัญหาและวิเคราะห์ในระดับพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ การวิเคราะห์ข้อมูลด้วยเครื่องมือนี้จะทำให้ได้ insight ของข้อมูล โดยจะ Fast, consistent, interactive

Data Mining
เป็นกระบวนการค้นหา Previously unknown, comprehensible, and actionable จาก database ที่มีขนาดใหญ่ กระบวนการ mining เริ่มจากการรวบรวมข้อมูลทั้งจาก Warehouse และแหล่งอื่น ผ่านการทำ ECTL แล้วจึงวิเคราะห์และประมวลผลข้อมูล และ การแปรผลข้อมูลซึ่งสำคัญที่สุด ถือเป็น output ที่แท้จริง
รูปแบบของ Data Mining มี 5 รูปแบบ ดังนี้
1.       Clustering – การจัดกลุ่ม จากความสัมพันธ์ของข้อมูล
2.       Classification – การจัดกลุ่ม จากสมมติฐานที่ตั้งไว้ แล้วทำการพิสูจน์
3.       Association – นำเสนอผลสืบเนื่อง
4.       Sequence discovery – ผลที่เกิดขึ้นตามหลัง
5.       Prediction – พยากรณ์สิ่งที่จะเกิดขึ้น

Text Mining
เป็นการทำ data mining กับข้อมูลที่ไม่มีรูปแบบ unstructured Data or less structured text files จะช่วยในการหา hidden content จากข้อมูลที่ไม่มีรูปแบบ และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Lecture8 (12/01/2011)

Data Management

ระบบ (System) ประกอบด้วย
-           วัตถุประสงค์ (Objective)
-           ส่วนประกอบ (Element)
-           กระบวนการทำงาน แบ่งออกเป็น สิ่งที่นำเข้า (Input) กระบวนการ (Process) และผลลัพธ์ (Output)
-           สิ่งแวดล้อม (Environment)
-           ขอบเขต
-           การควบคุม (control)  และผลย้อนกลับ (feedback)
-           ระบบย่อย (Subsystem)
Data & Information
                ความแตกต่างระหว่าง Data และ Information อยู่ที่ ประโยชน์ของการนำมาใช้ Data คือ ข้อมูลที่ไม่ผ่านกระบวนการใด ๆ จึงยังไม่มีประโยชน์ต่อคนรับ ส่วน Information คือผลลัพธ์ที่เกิดจากการนำ Data เข้าสู่กระบวนการแล้ว จึงเป็นข้อมูลที่ผู้รับที่มีส่วนได้เสียได้รับประโยชน์จากการรับสารนั้น
                ดังนั้นปัจจัยที่กำหนดว่า Message จะเป็น data หรือ information ขึ้นอยู่กับผู้รับหากส่งผลกับการตัดสินใจของผู้รับ Message นั้นก็จะเป็น Information 
                นอกจากนี้ ระบบสารสนเทศ คือ ระบบที่สร้างสารสนเทศ หมายถึง ระบบที่ทำหน้าที่รวบรวมข้อมูลเพื่อนำมาประมวลผล วิเคราะห์เพื่อสร้างสารสนเทศให้กับผู้ที่ต้องการ ซึ่งต้องเป็นผู้ที่มีสิทธิได้รับสารสนเทศ รวมทั้งการจัดเก็บบันทึกข้อมูลที่นำเข้าสู่ระบบไว้เพื่อการใช้งานในอนาคต
Data Management
                สาเหตุความยากลำบากของการบริหารข้อมูล เช่น  ข้อมูลกระจายอยู่ทั่วทั้งองค์กร ทำให้เกิดความซ้ำซ้อน (Redundant) ดังนั้นจะต้องมีการสร้างและเก็บรวบรวมอย่างมีระบบ การใช้ข้อมูลจากภายนอกไม่ใช้ข้อมูลภายในอย่างเดียว โดยการแยกข้อมูลภายในจากข้อมูลภายนอก ดูจากความเป็นเจ้าของและอำนาจในการควบคุมข้อมูลดังกล่าว และ องค์ประกอบของข้อมูลที่ดีต้องมี 3 ลักษณะ คือ security quality และ integrity เป็นต้น
                เป้าหมายของ Data Management คือ การสร้าง infrastructure ที่ทำการเปลี่ยน ข้อมูลดิบ ให้เป็น สารสนเทศขององค์กร
                Data Management แบ่งออกเป็น 4 ส่วน ได้แก่
1.     Data profiling – ความเข้าใจข้อมูล
2.     Data quality management – การปรับปรุงคุณภาพข้อมูล
3.     Data integration – การรวบรวมข้อมูลที่เหมือนกันจากแหล่งที่มาที่หลากหลาย
4.     Data augment – การปรับปรุงคุณค่าของข้อมูล
Data Life cycle process
1.       เก็บรวบรวมข้อมูลจากหลายแหล่งที่มา
2.       จัดเก็บข้อมูลใน database และทำให้มี format เพื่อเก็บไว้ใน data warehouse
3.       ผู้ใช้งาน access เข้า data warehouse  และทำการคัดลอกเพื่อเอาไปใช้ในการวิเคราะห์
4.       เครื่องมือในการวิเคราะห์คือ Data analysis tools และ Data mining tools
Data warehouse
                Data warehouse ไม่ใช่ database ขนาดใหญ่ แต่จะเป็นการ extract ข้อมูลบางส่วนมาจาก database เฉพาะข้อมูลที่ต้องการ โดยข้อมูลดังกล่าวนั้นจะถูกนำมาใช้ใน analytical process ต่อไป ทำให้ในการวิเคราะห์นั้นผู้ใช้ไม่จำเป็นต้องดึงข้อมูลจาก database โดยองค์กรที่ต้องมี data warehouse ต้องเป็นองค์กรที่ผู้บริหารต้องการตัดสินใจโดยอาศัยการวิเคราะห์ข้อมูล
                ลักษณะของ Data warehouse
1.       Organization – วิเคราะห์ข้อมูลโดย subject อะไร และจัดข้อมูลใหม่โดยใช้ subject
2.       Consistency  -- ข้อมูลมักไม่สม่ำเสมอ ต้องแก้ไขให้ข้อมูลมี consistency
3.       Time variant – ใช้ช่วงของเวลาไม่ใช่จุดของเวลา
4.       Non-volatile data – ข้อมูลที่ใช้มาจากอดีตดังนั้นจะไม่มีการเปลี่ยนแปลงอีกแล้ว ดังนั้นจะไม่มีการ update ข้อมูล แต่จะใช้การ refresh คือการเพิ่มข้อมูลใหม่
5.       Relational
6.       Client/server