แนะนำวิธีการจัดการข้อมูลที่เป็น text การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง สนใจอ่านรายละเอียดต่อ
1. วิธีการจัดการข้อมูลที่เป็น text
Data มีหลายประเภท ได้แก่
– Structured data: ข้อมูลที่อยู่ใน Database
– Semi-Structured data: XML, JSON, CSV and some NoSQL databases
– Unstructured data: Text, Photographs, video, Audio
วิธีการจัดการข้อมูลที่เป็น text มีความยุ่งยากในแง่ของการเตรียมข้อมูล Data Preprocessing เพราะมีความหลากหลายทั้งในแง่ของคำผิด คำถูก การตีความหรือทำความเข้าใจคำนั้นๆ ว่าเป็นบวกหรือลบ การมีข้อความจำนวนมากในเอกสาร และบางครั้งมีหลายไฟล์ถือเป็น 1 เอกสาร
การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง มีหลากหลายวิธีการดังนี้
Bag of Words เป็นวิธีการแยกคำ และนับคำที่เกิดขึ้นในประโยค
- Binary representation ใส่ 1 ถ้ามีคำนั้นๆ ถ้าไม่มีใส่ 0
- Term Frequency (TF) นับคำที่เกิดขึ้น และใส่ตามจำนวนคำที่เกิดในเอกสาร บางครั้งไม่สามารถหาคำที่เกิดขึ้นในเอกสารได้ ทำให้มีข้อมูnooลเป็น 0 อยู่จำนวนมาก
- Inverse Document Frequency (IDF) นับจำนวนคำที่เกิดขึ้นของเอกสารทั้งหมดที่สนใจ
- Term Frequency-Inverse Document Frequency (TF-IDF) ใช้ 2 วิธีการ TF และ IDF

หากใช้วิธีการแยกคำ (Bag of Words) แล้ว อาจจะเกิดปัญหาเรื่องการตีความได้ ดังนั้นจึงมีวิธีการ N-gram Sequences มาช่วยแก้ปัญหาได้
- N-gram Sequences เป็นการนับจำนวนคำ และเพิ่มจำนวนคำที่สนใจมีทั้งแบบคำเดียว 2 คำ และ 3 คำ
การเพิ่ม feature set เข้าไป จะต้องเพิ่มวิธีการเลือก feature เพื่อลดจำนวน feature ให้น้อยลงเลือกเฉพาะ feature ที่สำคัญ และจะต้องใช้หน่วยความจำกับพื้นที่ในการประมวลผลมากขึ้น
วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด
เรียบเรียงโดย นุชนาฏ รงรอง
www.rdbi.co.th
#Consultants
#Data Scientist
#Big Data Analytics
#text analysis
#วิธีการจัดการ text data
รวมบทความ Data Science Essential
ต้องการสอบถามข้อมูลเพิ่มเติม สามารถติดต่อได้ที่ https://rdbi.co.th/contact/
สอบถามเพิ่มเติมที่เพจ
Line official Account : @rdbi
อีเมล์ sales@rdbi.co.th