สรุปเนื้อหาในหลักสูตร Data Scientist Essentials ตอนที่ 6 Sentiment analysis on text data

แนะนำวิธีการจัดการข้อมูลที่เป็น text การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง สนใจอ่านรายละเอียดต่อ

1. วิธีการจัดการข้อมูลที่เป็น text

Data มีหลายประเภท ได้แก่
– Structured data: ข้อมูลที่อยู่ใน Database
– Semi-Structured data: XML, JSON, CSV and some NoSQL databases
– Unstructured data: Text, Photographs, video, Audio

วิธีการจัดการข้อมูลที่เป็น text มีความยุ่งยากในแง่ของการเตรียมข้อมูล Data Preprocessing เพราะมีความหลากหลายทั้งในแง่ของคำผิด คำถูก การตีความหรือทำความเข้าใจคำนั้นๆ ว่าเป็นบวกหรือลบ การมีข้อความจำนวนมากในเอกสาร และบางครั้งมีหลายไฟล์ถือเป็น 1 เอกสาร

การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง มีหลากหลายวิธีการดังนี้

Bag of Words เป็นวิธีการแยกคำ และนับคำที่เกิดขึ้นในประโยค

Binary representation ใส่ 1 ถ้ามีคำนั้นๆ ถ้าไม่มีใส่ 0
Term Frequency (TF) นับคำที่เกิดขึ้น และใส่ตามจำนวนคำที่เกิดในเอกสาร บางครั้งไม่สามารถหาคำที่เกิดขึ้นในเอกสารได้ ทำให้มีข้อมูnooลเป็น 0 อยู่จำนวนมาก
Inverse Document Frequency (IDF) นับจำนวนคำที่เกิดขึ้นของเอกสารทั้งหมดที่สนใจ
Term Frequency-Inverse Document Frequency (TF-IDF) ใช้ 2 วิธีการ TF และ IDF

Term Frequency-Inverse Document Frequency (TF-IDF)

หากใช้วิธีการแยกคำ (Bag of Words) แล้ว อาจจะเกิดปัญหาเรื่องการตีความได้ ดังนั้นจึงมีวิธีการ N-gram Sequences มาช่วยแก้ปัญหาได้

N-gram Sequences เป็นการนับจำนวนคำ และเพิ่มจำนวนคำที่สนใจมีทั้งแบบคำเดียว 2 คำ และ 3 คำ

การเพิ่ม feature set เข้าไป จะต้องเพิ่มวิธีการเลือก feature เพื่อลดจำนวน feature ให้น้อยลงเลือกเฉพาะ feature ที่สำคัญ และจะต้องใช้หน่วยความจำกับพื้นที่ในการประมวลผลมากขึ้น

วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด
เรียบเรียงโดย นุชนาฏ รงรอง
www.rdbi.co.th
#Consultants
#Data Scientist
#Big Data Analytics
#text analysis
#วิธีการจัดการ text data

รวมบทความ Data Science Essential

ต้องการสอบถามข้อมูลเพิ่มเติม สามารถติดต่อได้ที่ https://rdbi.co.th/contact/
สอบถามเพิ่มเติมที่เพจ
Line official Account : @rdbi
อีเมล์ sales@rdbi.co.th