การตัดคำภาษาไทยสำหรับข้อความในพิพิธภัณฑ์ปลาน้ำจืด

Thai Word Segmentation For Freshwater Fish Museum

Authors

  • สุรศักดิ์ ตั้งสกุล
  • ฐาปนี เฮงสนั่นกูล

Keywords:

การตัดคำ , การเทียบสายอักษร , โครงสร้างพจนานุกรมแบบทรัย

Abstract

งานวิจัยนี้ได้นำเสนอการตัดคำภาษาไทยโดยใช้การเทียบสายอักษรและใช้วิธีการสร้างกราฟเพื่อหาการต่อและทับกันของคำที่ปรากฏในพจนานุกรม โดยใช้ข้อมูลจากกราฟเพื่อหาขอบเขตของคำที่ปรากฏในพจนานุกรมที่ทับกัน ส่วนคำที่ไม่ปรากฏในพจนานุกรมจะใช้วิธีการระบุชนิดของคำและกฎในการหาขอบเขต ซึ่งจากการวัดประสิทธิภาพในส่วนของการตัดคำที่ไม่ปรากฏในพจนานุกรมพบว่ามีค่าความแม่นยำเท่ากับร้อยละ 75.87 ค่าความครบถ้วนร้อยละ 73.67 และค่าความถูกต้องของการตัดคำเท่ากับร้อยละ 74.75 ส่วน การวัดประสิทธิภาพในส่วนของการตัดคำในระดับพยางค์และระดับคำในเชิงความหมายพบว่ามีค่าความแม่นยำ ค่าความครบถ้วน และค่าความถูกต้องของการตัดคำโดยเฉลี่ยเท่ากับร้อยละ 73.13 67.21 และ 70.33 ตามลำดับ และเมื่อพิจารณาค่าความถูกต้องของการตัดคำที่ไม่ปรากฏในพจนานุกรมและการตัดคำในระดับพยางค์และระดับคำในเชิงความหมายพบว่ามีค่าความถูกต้องของการตัดคำทั้งหมดเฉลี่ยเท่ากับร้อยละ 72.54  This paper presents the segmentation Thai words using string matching and graphs to find overlapping words that occur in Thai dictionaries. Unknown words that do not occur in Thai dictionaries had been classified according to the parts of speech and the boundary rule of each word. To measure the efficiency in segmenting unknown words has been found that the figures of precision, recall, and F-measure were as follows: 75.87%, 73.67%, and 74.75% respectively. Regarding average the efficiency of segmentation of words in terms of syllables and semantics, it was found that the figures of precision, recall, and F-measure were as follows: 73.13%, 67.21%, and 70.33%. Considering the overall segmentation of both unknown and known words, the accurate figure of the research paper was equal to 72.54%

References

ชิดชนก เหลือสินทรัพย์. (2545). Analysis & Design of Algorithms. กรุงเทพมหานคร : School & University Media.

ฐาปนี เฮงสนั่นกูล และ พุธษดี ศิริแสงตระกูล. (2548).การตัดคำโดยใช้เทคนิค Fast and Compact Updating Algorithm. The 2 nd Joint Conferenceon Computer Science and Software Engineering, 144-150.

พระยาอุปกิตศิลปะสาร. (2514). หลักภาษาไทย. กรุงเทพมหานคร : ไทยวัฒนาพานิช.

พีรเดช บางเจริญทรัพย์. (2552). A Machine-Translation based Approach to Word Boundary Identification: A Projective Analogy of Bilingual Translation. National Software Contest (NSC). Available: http://www.nectec.or.th/nsc.

ไพศาล เจริญพรสวัสดิ์. (2541). การตัดคำภาษาไทยโดยใช้คุณลักษณะ. วิทยานิพนธ์วิศวกรรมศาสตรมหาบัณฑิต สาขาวิศวกรรมคอมพิวเตอร์. บัณฑิตวิทยาลัย. จุฬาลงกรณ์มหาวิทยาลัย.

วิฑูรย์ กัลยาณวัฒน์. (2540). ระบบการค้นคืนข้อความภาษาไทยโดยใช้แฟ้มข้อมูลผกผัน. วิทยานิพนธ์วิศวกรรมศาสตรมหาบัณฑิต สาขาวิศวกรรมคอมพิวเตอร์. บัณฑิตวิทยาลัย. จุฬาลงกรณ์มหาวิทยาลัย.

วิรัช ศรเลิศล้ำวาณิช. (2536). การตัดคำภาษาไทยในระบบแปลภาษา. กรุงเทพมหานคร : ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. 50-55.

ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. (2547). ฐานข้อมูลพจนานุกรมภาษาไทย. http://lexitron.nectec.or.th/dnload_data/lexitron-data.zip.

John R. Hubbard and Anita Hyray. (2004). Data Structures with Java. New Jersey : Pearson Education Inc.

Downloads

Published

2023-02-23