กลุ่มนวัตกรรมทางสังคม>ป- การพัฒนาระบบวิเคราะห์ความรู้สึกคิดเห็นเชิงตอบโต้จากบทวิจารณ์บนสังคมออนไลน์ โดยอาศัยการเรียนรู้เครื่องกลและการเรียนรู้เชิงลึกกรณีศึกษากลุ่มสินค้าด้านเครื่องสำอาง อาหาร และสุขภาพ (ระยะที่ 1)-ปรีดิ์ เที่ยงบูรณธรรม
ป- การพัฒนาระบบวิเคราะห์ความรู้สึกคิดเห็นเชิงตอบโต้จากบทวิจารณ์บนสังคมออนไลน์ โดยอาศัยการเรียนรู้เครื่องกลและการเรียนรู้เชิงลึกกรณีศึกษากลุ่มสินค้าด้านเครื่องสำอาง อาหาร และสุขภาพ (ระยะที่ 1)-ปรีดิ์ เที่ยงบูรณธรรม
ผู้วิจัย : อ.ดร.ปรีดิ์ เที่ยงบูรณธรรม   โพสต์ เมื่อ 13 เมษายน 2021

ปัจจุบันสังคมออนไลน์ถูกใช้เป็นเครื่องมือเชิงพาณิชย์ในการสื่อสารแลกเปลี่ยนข้อมูลเกี่ยวกับสินค้าและบริการระหว่างผู้บริโภค ผู้ผลิต และผู้ขาย โดยข้อมูลบนสังคมออนไลน์มีลักษณะเป็นข้อมูลขนาดใหญ่และไร้โครงสร้าง ข้อมูลเหล่านี้มีค่ามากในการทําการวิเคราะห์ความรู้สึก (Sentimental analysis) ซึ่งเป็นศาสตร์ย่อยของการทําเหมืองภาษา (Text mining) ซึ่งการวิเคราะห์ความรู้สึกนี้สามารถพยากรณ์ความรู้สึกของคนผ่านข้อความหรือบทวิจารณ์ได้ออกเป็นหลายความรู้สึก เช่น รู้สึกลบ รู้สึกดี รู้สึกแย่ (Polarity) หรือมากกว่านั้น ข้อมูลที่ผ่านการวิเคราะห์เมื่อนําไปใช้ในเชิงพาณิชย์จะมีประโยชน์ต่อผู้ประกอบการในการวางแผนการตลาด และการกําหนดเป้าหมายเชิงกลยุทธ์ได้อย่างมาก ยกตัวอย่างเช่น การตรวจสอบชื่อเสียงแบรนด์ (Brand reputation monitoring) การตรวจสอบคู่แข่งทางการค้า (Competitive Monitoring) และเสียงของลูกค้า (Voice of Customer) อย่างไรก็ตามความท้าทายในการทําการวิเคราะห์ความรู้สึกบนภาษาไทยมีค่อนข้างหลากหลาย แต่ความท้าท้ายที่จําเป็นขณะนี้ในการทําการวิเคราะห์ความรู้สึกคือ การได้มาซึ่งข้อมูลขนาดใหญ่และต่อเนื่อง (Obtaining large dataset) การตัดประโยคภาษาไทยออกมาจากบทวิจารณ์หรือบทความ (Text Tokenizing) และความแม่นยําของโมเดลพยากรณ์ (Predictive power) รวมถึงการนําผลลัพธ์จากการวิเคราะห์ข้อมูลไปใช้ในเชิงพาณิชย์อย่างเป็นรูปธรรม (Model deployment)

โครงการนี้มีเป้าหมายเพื่อพัฒนาระบบวิเคราะห์ความรู้สึกและความคิดเห็นจากข้อมูลสังคมออนไลน์ และแสดงผลข้อมูลในรูปแบบของเว็บแอปพลิเคชันเชิงโต้ตอบ ซึ่งมีขั้นตอนเริ่มจาก (1) การพัฒนาซอฟต์แวร์สําหรับการเก็บข้อมูลบทวิจารณ์ (Web crawler) จากเว็บไซต์สองแหล่งคือ pantip.com (2) การเตรียมข้อมูลภาษา Text pre-processing (3) การเปลี่ยนคําเป็นเวกเตอร์โดยใช้วิธี Word embedding (4) การสร้างโมเดลพยากรณ์โดยใช้ การเรียนรู้ของเครื่องกลแบบดั้งเดิม (Traditional Machine learning) และการสร้างโมเดลจากการเรียนรู้อย่างลึก (Deep learning) เช่น การสร้างโมเดลตัววัดโดยใช้ Naive Bayes classifier เพื่อเปรียบเทียบความแม่นยํากับการสร้างโมเดลโดยใช้ Recurrent Neural Network (RNN) โดยวิธีLong-Short Term Memory (LSTM) (5)-(6) ผลลัพธ์จากโมเดลพยากรณ์ความรู้สึกทําให้ผู้ประกอบการสามารถเข้าถึงข้อมูลเชิงวิเคราะห์ โดยผ่านส่วนต่อประสานกับผู้ใช้ (User interface) ในรูปแบบของหน้าแสดงผลข้อมูลแบบทันสมัย Web-based analytic application เพื่อใช้ในการตัดสินใจเชิงธุรกิจได้แสดงดังภาพที่ 2 ยกตัวอย่างเช่น ผู้ประกอบการสามารถเห็นแนวโน้มของความรู้สึกเชิงบวกลบต่อข้อมูลกลุ่มประเภทยา สุขภาพ และอาหาร ว่าเป็นไปในทิศทางใดในช่วงเวลานั้นๆ (Sentiment Polarity and time series plot) การแสดงการเรียงตัวของกลุ่มคําจากคลังคําศัพท์ (Word cloud) การสรุปข้อมูลความรู้สึกโดยรวม และการแสดงผลคําศัพท์เฉพาะที่ใช้บ่อยในเชิงพาณิชย์ (Word rank)

วัตถุประสงค์ของการวิจัย

  1. เพื่อพัฒนาซอฟต์แวร์สําหรับนําเข้าข้อมูลบทวิจารณ์ขนาดใหญ่จากเว็ปไซต์ pantip.com (web crawler) และสร้างคลังคําศัพท์ (corpuses) สําหรับข้อความวิพากษ์กลุ่มสินค้าเครื่องสําอาง อาหาร และสุขภาพ
  2. เพื่อสร้างโมเดลพยากรณ์ (Predictive Models) โดยใช้การเรียนรู้ของเครื่องกล (Machine-Learning) และการเรียนรู้เชิงลึก (Deep-Learning) โดยใช้วิธีการจําแนกประเภท (Classification) ขั้วความรู้สึกของลูกค้าผ่าน ข้อความวิพากษ์กลุ่มสินค้าเครื่องสําอาง อาหารและสุขภาพ
  3. เพื่อพัฒนาส่วนต่อประสานกับผู้ใช้ (User interface) ในรูปแบบเว็บแอพพลิเคชันเชิงตอบโต้ (Interactive Web-based Analytic Application) สําหรับผู้ประกอบการวิเคราะห์แนวโน้มของข้อมูลเพื่อช่วยในการช่วยตัดสินใจ

ในรายงานขั้นสุดท้าย (ระยะที่ 1) ทีมวิจัยได้เสนอวิธีการและผลลัพธ์ตามวัตถุประสงค์ข้อ 1 เพื่อกําหนดวิธีการประมวลผลข้อความ (Text processing) ที่จะใช้ในการพัฒนาแบบจําลองและส่วนประสานต่อกับผู้ใช้ (User interface) ในระยะที่ 2 เท่านั้น ขั้นตอนการทํางานและผลลัพธ์ตามวัตถุประสงค์ข้อ 2 และข้อ 3 จะดําเนินการในระยะที่ 2 (เดือนตุลาคม 2563 - เดือนเมษายน 2564)

Currently, social media is being used as a marketing tool that can enable users to exchange information about products among consumers, product owners, and sellers. This kind of information is considered valuable and can be used in Natural Language Processing (NLP) applications such as Sentimental Analysis (SA). SA can be used to analyze comments, reviews, or text, whether they are positive, neutral, or negative. The analyzed data provide insight for commercial use. For example, the data could be beneficial in the development of marketing strategies, in monitoring brand reputation, for competitive monitoring applications, and in listening to and processing the customers' voice. However, there are several challenges associated with SA especially in relation to the use of the Thai language. These could arise when attempting to obtain large datasets, processing of sentence segmentation, increasing predictive power, and deploying the ultimate developed model.

This project aims to develop a Thai sentimental analysis tool based on user online content. It would then aim to display relevant details to users in the form of interactive and responsive web-based analytic applications. To achieve this, the following processes would need to be accomplished:

  1. obtaining a large volume of Thai textual data,
  2. performing a text pre-processing step,
  3. transforming text into vectors, and
  4. developing machine learning models using traditional machine learning and deep-learning methods.
  5. (5-6) The model will be deployed in the back end of the platform and will be connected to the front-end. Decision makers can observe product-related trends over time. The products may be related to cosmetics, food, and health products. Information will be processed using several interactive word clouds and word ranking tools to produce a range of relevant charts and graphs.

Research objectives

  1. To develop a web crawler that could obtain a large volume of textual data from the pantip.com website, along with the ability to generate corpuses that are related to cosmetics, food, and health products.
  2. To develop a predictive model based on machine-learning and deep-learning approaches that would classify the sentiment of posted comments related to cosmetics, food, and health products.
  3. To develop a systematic user interface as an interactive, responsive web-based analytic application that could be used to assist stakeholders in their decision-making processes.

In this final report (phase 1), we have proposed the research method and discussed the experimental results according to research objective one. The output from this objective will be used in the development of the model and system user interface in the second phase. In other words, the research objectives two and three will be carried in phase two (October 2020 - April 2021).