

ปัจจุบันสังคมออนไลน์ถูกใช้เป็นเครื่องมือเชิงพาณิชย์ในการสื่อสารแลกเปลี่ยนข้อมูลเกี่ยวกับสินค้าและบริการระหว่างผู้บริโภค ผู้ผลิต และผู้ขาย โดยข้อมูลบนสังคมออนไลน์มีลักษณะเป็นข้อมูลขนาดใหญ่และไร้โครงสร้าง ข้อมูลเหล่านี้มีค่ามากในการทําการวิเคราะห์ความรู้สึก (Sentimental analysis) ซึ่งเป็นศาสตร์ย่อยของการทําเหมืองภาษา (Text mining) ซึ่งการวิเคราะห์ความรู้สึกนี้สามารถพยากรณ์ความรู้สึกของคนผ่านข้อความหรือบทวิจารณ์ได้ออกเป็นหลายความรู้สึก เช่น รู้สึกลบ รู้สึกดี รู้สึกแย่ (Polarity) หรือมากกว่านั้น ข้อมูลที่ผ่านการวิเคราะห์เมื่อนําไปใช้ในเชิงพาณิชย์จะมีประโยชน์ต่อผู้ประกอบการในการวางแผนการตลาด และการกําหนดเป้าหมายเชิงกลยุทธ์ได้อย่างมาก ยกตัวอย่างเช่น การตรวจสอบชื่อเสียงแบรนด์ (Brand reputation monitoring) การตรวจสอบคู่แข่งทางการค้า (Competitive Monitoring) และเสียงของลูกค้า (Voice of Customer) อย่างไรก็ตามความท้าทายในการทําการวิเคราะห์ความรู้สึกบนภาษาไทยมีค่อนข้างหลากหลาย แต่ความท้าท้ายที่จําเป็นขณะนี้ในการทําการวิเคราะห์ความรู้สึกคือ การได้มาซึ่งข้อมูลขนาดใหญ่และต่อเนื่อง (Obtaining large dataset) การตัดประโยคภาษาไทยออกมาจากบทวิจารณ์หรือบทความ (Text Tokenizing) และความแม่นยําของโมเดลพยากรณ์ (Predictive power) รวมถึงการนําผลลัพธ์จากการวิเคราะห์ข้อมูลไปใช้ในเชิงพาณิชย์อย่างเป็นรูปธรรม (Model deployment)
โครงการนี้มีเป้าหมายเพื่อพัฒนาระบบวิเคราะห์ความรู้สึกและความคิดเห็นจากข้อมูลสังคมออนไลน์ และแสดงผลข้อมูลในรูปแบบของเว็บแอปพลิเคชันเชิงโต้ตอบ ซึ่งมีขั้นตอนเริ่มจาก (1) การพัฒนาซอฟต์แวร์สําหรับการเก็บข้อมูลบทวิจารณ์ (Web crawler) จากเว็บไซต์สองแหล่งคือ pantip.com (2) การเตรียมข้อมูลภาษา Text pre-processing (3) การเปลี่ยนคําเป็นเวกเตอร์โดยใช้วิธี Word embedding (4) การสร้างโมเดลพยากรณ์โดยใช้ การเรียนรู้ของเครื่องกลแบบดั้งเดิม (Traditional Machine learning) และการสร้างโมเดลจากการเรียนรู้อย่างลึก (Deep learning) เช่น การสร้างโมเดลตัววัดโดยใช้ Naive Bayes classifier เพื่อเปรียบเทียบความแม่นยํากับการสร้างโมเดลโดยใช้ Recurrent Neural Network (RNN) โดยวิธีLong-Short Term Memory (LSTM) (5)-(6) ผลลัพธ์จากโมเดลพยากรณ์ความรู้สึกทําให้ผู้ประกอบการสามารถเข้าถึงข้อมูลเชิงวิเคราะห์ โดยผ่านส่วนต่อประสานกับผู้ใช้ (User interface) ในรูปแบบของหน้าแสดงผลข้อมูลแบบทันสมัย Web-based analytic application เพื่อใช้ในการตัดสินใจเชิงธุรกิจได้แสดงดังภาพที่ 2 ยกตัวอย่างเช่น ผู้ประกอบการสามารถเห็นแนวโน้มของความรู้สึกเชิงบวกลบต่อข้อมูลกลุ่มประเภทยา สุขภาพ และอาหาร ว่าเป็นไปในทิศทางใดในช่วงเวลานั้นๆ (Sentiment Polarity and time series plot) การแสดงการเรียงตัวของกลุ่มคําจากคลังคําศัพท์ (Word cloud) การสรุปข้อมูลความรู้สึกโดยรวม และการแสดงผลคําศัพท์เฉพาะที่ใช้บ่อยในเชิงพาณิชย์ (Word rank)
วัตถุประสงค์ของการวิจัย
ในรายงานขั้นสุดท้าย (ระยะที่ 1) ทีมวิจัยได้เสนอวิธีการและผลลัพธ์ตามวัตถุประสงค์ข้อ 1 เพื่อกําหนดวิธีการประมวลผลข้อความ (Text processing) ที่จะใช้ในการพัฒนาแบบจําลองและส่วนประสานต่อกับผู้ใช้ (User interface) ในระยะที่ 2 เท่านั้น ขั้นตอนการทํางานและผลลัพธ์ตามวัตถุประสงค์ข้อ 2 และข้อ 3 จะดําเนินการในระยะที่ 2 (เดือนตุลาคม 2563 - เดือนเมษายน 2564)