

ปัจจุบันสังคมออนไลน์ถูกใช้เป็นเครื่องมือเชิงพาณิชย์ในการสื่อสารแลกเปลี่ยนข้อมูลเกี่ยวกับสินค้าและบริการระหว่างผู้บริโภค ผู้ผลิต และผู้ขาย โดยข้อมูลบนสังคมออนไลน์มีลักษณะเป็นข้อมูลขนาดใหญ่และไร้โครงสร้าง ข้อมูลเหล่านี้มีค่ามากในการทําการวิเคราะห์ความรู้สึก (Sentimental analysis) ซึ่งเป็นศาสตร์ย่อยของการทําเหมืองภาษา (Text mining) ซึ่งการวิเคราะห์ความรู้สึกนี้สามารถพยากรณ์ความรู้สึกของคนผ่านข้อความหรือบทวิจารณ์ได้ออกเป็นหลายความรู้สึก เช่น รู้สึกลบ รู้สึกดี รู้สึกแย่ (Polarity) หรือมากกว่านั้น ข้อมูลที่ผ่านการวิเคราะห์เมื่อนําไปใช้ในเชิงพาณิชย์จะมีประโยชน์ต่อผู้ประกอบการในการวางแผนการตลาด และการกําหนดเป้าหมายเชิงกลยุทธ์ได้อย่างมาก ยกตัวอย่างเช่น การตรวจสอบชื่อเสียงแบรนด์ (Brand reputation monitoring) การตรวจสอบคู่แข่งทางการค้า (Competitive Monitoring) และเสียงของลูกค้า (Voice of Customer) อย่างไรก็ตามความท้าทายในการทําการวิเคราะห์ความรู้สึกบนภาษาไทยมีค่อนข้างหลากหลาย แต่ความท้าท้ายที่จําเป็นขณะนี้ในการทําการวิเคราะห์ความรู้สึกคือ การได้มาซึ่งข้อมูลขนาดใหญ่และต่อเนื่อง (Obtaining large dataset) การตัดประโยคภาษาไทยออกมาจากบทวิจารณ์หรือบทความ (Text Tokenizing) และความแม่นยําของโมเดลพยากรณ์ (Predictive power) รวมถึงการนําผลลัพธ์จากการวิเคราะห์ข้อมูลไปใช้ในเชิงพาณิชย์อย่างเป็นรูปธรรม (Model deployment)
โครงการนี้มีเป้าหมายเพื่อพัฒนาระบบวิเคราะห์ความรู้สึกและความคิดเห็นจากข้อมูลสังคมออนไลน์ และแสดงผลข้อมูลในรูปแบบของเว็บแอปพลิเคชันเชิงโต้ตอบ ซึ่งมีขั้นตอนเริ่มจาก (1) การพัฒนาซอฟต์แวร์สําหรับการเก็บข้อมูลบทวิจารณ์ (Web crawler) จากเว็บไซต์สองแหล่งคือ pantip.com (2) การเตรียมข้อมูลภาษา Text pre-processing (3) การเปลี่ยนคําเป็นเวกเตอร์โดยใช้วิธี Word embedding (4) การสร้างโมเดลพยากรณ์โดยใช้ การเรียนรู้ของเครื่องกลแบบดั้งเดิม (Traditional Machine learning) และการสร้างโมเดลจากการเรียนรู้อย่างลึก (Deep learning) เช่น การสร้างโมเดลตัววัดโดยใช้ Naive Bayes classifier เพื่อเปรียบเทียบความแม่นยํากับการสร้างโมเดลโดยใช้ Recurrent Neural Network (RNN) โดยวิธีLong-Short Term Memory (LSTM) (5)-(6) ผลลัพธ์จากโมเดลพยากรณ์ความรู้สึกทําให้ผู้ประกอบการสามารถเข้าถึงข้อมูลเชิงวิเคราะห์ โดยผ่านส่วนต่อประสานกับผู้ใช้ (User interface) ในรูปแบบของหน้าแสดงผลข้อมูลแบบทันสมัย Web-based analytic application เพื่อใช้ในการตัดสินใจเชิงธุรกิจได้แสดงดังภาพที่ 2 ยกตัวอย่างเช่น ผู้ประกอบการสามารถเห็นแนวโน้มของความรู้สึกเชิงบวกลบต่อข้อมูลกลุ่มประเภทยา สุขภาพ และอาหาร ว่าเป็นไปในทิศทางใดในช่วงเวลานั้นๆ (Sentiment Polarity and time series plot) การแสดงการเรียงตัวของกลุ่มคําจากคลังคําศัพท์ (Word cloud) การสรุปข้อมูลความรู้สึกโดยรวม และการแสดงผลคําศัพท์เฉพาะที่ใช้บ่อยในเชิงพาณิชย์ (Word rank)
วัตถุประสงค์ของการวิจัย
ในรายงานขั้นสุดท้าย (ระยะที่ 1) ทีมวิจัยได้เสนอวิธีการและผลลัพธ์ตามวัตถุประสงค์ข้อ 1 เพื่อกําหนดวิธีการประมวลผลข้อความ (Text processing) ที่จะใช้ในการพัฒนาแบบจําลองและส่วนประสานต่อกับผู้ใช้ (User interface) ในระยะที่ 2 เท่านั้น ขั้นตอนการทํางานและผลลัพธ์ตามวัตถุประสงค์ข้อ 2 และข้อ 3 จะดําเนินการในระยะที่ 2 (เดือนตุลาคม 2563 - เดือนเมษายน 2564)
Currently, social media is being used as a marketing tool that can enable users to exchange information about products among consumers, product owners, and sellers. This kind of information is considered valuable and can be used in Natural Language Processing (NLP) applications such as Sentimental Analysis (SA). SA can be used to analyze comments, reviews, or text, whether they are positive, neutral, or negative. The analyzed data provide insight for commercial use. For example, the data could be beneficial in the development of marketing strategies, in monitoring brand reputation, for competitive monitoring applications, and in listening to and processing the customers' voice. However, there are several challenges associated with SA especially in relation to the use of the Thai language. These could arise when attempting to obtain large datasets, processing of sentence segmentation, increasing predictive power, and deploying the ultimate developed model.
This project aims to develop a Thai sentimental analysis tool based on user online content. It would then aim to display relevant details to users in the form of interactive and responsive web-based analytic applications. To achieve this, the following processes would need to be accomplished:
Research objectives
In this final report (phase 1), we have proposed the research method and discussed the experimental results according to research objective one. The output from this objective will be used in the development of the model and system user interface in the second phase. In other words, the research objectives two and three will be carried in phase two (October 2020 - April 2021).