ความเป็นธรรมชาติของเสียงสังเคราะห์ : กรณีศึกษาเปรียบเทียบเชิงจิตวิสัยด้วยการประยุกต์ใช้วิธีการประเมินแบบ ACR ระหว่าง Siri และ Google Translate ด้วยเนื้อหาข่าว

Naturalness of Synthesized Speech: A Subjective-Comparative Study Utilizing ACR Listening-Opinion Tests between Siri and Google Translate Using News Content

Authors

  • รพิสิฐ พรพงศ์เตชวาณิช
  • เทอดพงษ์ แดงสี

Keywords:

ทีทีเอส, เอ็มโอเอส , ความเป็นธรรมชาติ, เสียงสังเคราะห์, TTS, MOS, naturalness, synthesized speech

Abstract

การสังเคราะห์เสียงจากข้อความถือเป็นหนึ่งในเทคโนโลยีที่สำคัญบนพื้นฐานของการประมวลผลภาษามนุษย์ในปัจจุบัน อย่างไรก็ตามหนึ่งในประเด็นที่น่าสนใจเกี่ยวกับเสียงสังเคราะห์คือความเป็นธรรมชาติของเสียง บทความนี้ จึงนำเสนอการประยุกต์ใช้วิธีการประเมินคุณภาพเสียงเพื่อใช้ในการประเมินความเป็นธรรมชาติของเสียงสังเคราะห์ภาษาไทย ที่สร้างจากระบบสังเคราะห์เสียงจากข้อความที่ได้รับความนิยม 2 ระบบ ได้ แก่ Siri และ Google Translate สำหรับวิธีดำเนินการวิจัยเสียงสังเคราะห์ภาษาไทยที่มีเนื้อหาเกี่ยวกับข่าวในพระราช สำนัก 2 ข่าว และข่าวทั่วไปเกี่ยวกับไวรัสโคโรน่าสายพันธุ์ใหม่ 2019 (โควิด-19) ที่สร้างโดย Siri และ Google Translate ได้ถูกประเมินโดยอาสาสมัครชาย 16 คน และ อาสาสมัครหญิง 16 คน พบว่า ในภาพรวมค่าเฉลี่ยคะแนนความคิดเห็นของเสียงสังเคราะห์ภาษาไทยที่สร้างจาก Google Translate ซึ่งมีค่าเท่ากับ 3.53 ± 0.67 มีค่าสูงกว่า 3.16 ± 0.77 ที่สร้างขึ้นโดย Siri ยิ่งไปกว่านั้น เมื่อวิเคราะห์ทางสถิติด้วย t-test พบว่า ได้ค่า p-value เท่ากับ 0.037 จึงสรุปได้ว่า ส่วนที่ทำหน้าที่สังเคราะห์เสียงใน Google Translate สามารถสร้างเสียงที่มีความเป็นธรรมชาติมากกว่าส่วนที่ทำหน้าที่สังเคราะห์เสียงใน Siri อย่างมีนัยสำคัญ (p-value น้อยกว่า 0.05) ดังนั้นวิธีดำเนินการวิจัยในบทความนี้สามารถนำไปประยุกต์ใช้ในการประเมินระดับความเป็นธรรมชาติของแอปพลิเคชัน/บริการ/ระบบอื่น ๆ เพื่อพัฒนาคุณภาพเสียงสังเคราะห์  Text-To-Speech synthesis (TTS) is one of the most important technologies based on human language processing at present. However, one of interesting open issues about synthesized speech is naturalness of speech. This article presents the application of a speech quality assessment method to assess the naturalness of Thai synthesized speech from two popular TTS systems, Siri and Google Translate. For methodology, Thai synthesized speech, associated with two royal news and two general news (COVID-19), provided by Siri and Google Translate have been assessed by sixteen Thai male volunteers and sixteen Thai female volunteers. It has been found the overall result that the value of the naturalness - Mean Opinion Score (MOS) of Thai synthesized speech provided by Google Translate is 3.53 ± 0.67, which is higher than the value of 3.16 ± 0.77 provided by Siri. Furthermore, after the statistical analysis using t-test, it is been found that the p-value is 0.037. In conclusion, the speech synthesis engine in Google Translate provides better naturalness than the one in Siri significantly. Therefore, the methodology in this article can be applied to assess naturalness level of other applications/services/systems in order to improve synthesized speech quality.

References

Capes, T., Coles, P., Conkie, A., Golipour, L., Hadjitarkhani, A., Hu, Q., Huddleston, N., Hunt, M., Li, J., Neeracher, M., Prahallad, K., Raitio, T., Rasipuram, R., Townsend, G., Williamson, B., Winarsky, D., Wu, Z., & Zhang, H. (2017). Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System. In Proc. of INTERSPEECH. (pp. 4011-4015). Stockholm, Sweden. Retrieved February 9, 2021, from: https://pdfs.semanticscholar.org/702e/aa99bcb366d08d7f450ed7e 354f9f6920b23.pdf

Cardoso, W., Smith, G., & Fuentes C. G. (2015). Evaluating text-to-speech synthesizers. In Proc. of EUROCALL. (pp. 108-113). Padova, Italy. Retrieved February 9, 2021, from: https://files.eric.ed.gov/fulltext/ED564181.pdf

Csapo, T. G. (2020). Increasing the Naturalness of Synthesized Speech. Retrieved February 9, 2021, from: http://smartlab.tmit.bme.hu/csapo/downloads/Csapo-phonetician2012-paper.pdf

Daengsi, T. & Pornpongtechavanich, P. (2021). Quality of Experience: Comparison of Synthesized Speech Naturalness Between Apple’s Siri and Google Translate Referring to Thai Language. In Proc of ICCCI 2021). Coimbatore, INDIA.

Daengsi, T., Preechayasomboon, A., Sukparungsee, S., & Wutiwiwatchai, C. (2012). Thai Text Resource: A Recommended Thai Text Set for Voice Quality Measurements and Its Comparative Study. KKU Science Journal, 40(4), 1114-1127. Retrieved February 9, 2021, from: http://scijournal.kku.ac.th/files/Vol_40_No_4_P_1114-1127.pdf

Daengsi, T., Wutiwiwatchai, C., Preechayasomboon, A., & Sukparungsee, S. (2014). IP Telephony: Comparison of Subjective Assessment Methods for Voice Quality Evaluation. Walailak Journal of Science and Technology, 11(2), 87-92. Retrieved February 9, 2021, from: https://wjst.wu.ac.th/index.php/wjst/article/view/577/353

Daengsi, T., & Wuttidittachotti, P. (2019). QoE Modeling for Voice over IP: Simplified E-model Enhancement Utilizing the Subjective MOS Prediction Model – A Case of G.729 and Thai Users. Journal of Network and Systems Management, 27(4), 837–859. Retrieved February 9, 2021, from: https://link.springer.com/article/10.1007 /s10922-018-09487-4

Daengsi, T. Yochanang, K., & Wuttidittachotti, P. (2013). A Study of Perceptual VoIP Quality Evaluation with Thai Users and Codec Selection Using Voice Quality – Bandwidth Tradeoff Analysis. In Proc. of 4th ICTC. (pp.691-696). Jeju Island, Korea. Retrieved February 9, 2021, from: http://www2.it.kmutnb.ac.th/teacher/FileDL/ Kiattisak1712255614465.pdf

Dall, R., Yamagishi, J., & King, S. (2014). Rating Naturalness in Speech Synthesis: The Effect of Style and Expectation. In Proc. of Conference contribution. (pp. 1-5). Dublin, Ireland. Retrieved February 9, 2021, from: https://core.ac.uk/download/pdf/24060899.pdf

Dinh, T., Kain, A., Samlan, R., Cao B., & Wang, J. (2020). Increasing the Intelligibility and Naturalness of Alaryngeal Speech Using Voice Conversion and Synthetic Fundamental Frequency. In Proc. Of INTERSPEECH. (pp. 4781-4785) Shanghai, China. Retrieved February 9, 2021, from: https://iscaspeech.org/archive/ Interspeech_2020/pdfs/1196.pdf

Google Play. (2020). Google Translate. Retrieved February 9, 2021, from: https://play.google.com/store/apps/details?id=com.google.android.apps.translate&hl=en

ITU-T Recommendation P.800. (1996). Methods for subjective determination of transmission quality. Retrieved February 9, 2021, from: http://www.itu.int/rec/T-REC-P.800-199608-I

ITU-T Recommendation P.800.2 (2016). Mean opinion score interpretation and reporting. Retrieved February 9, 2021, from: https://www.itu.int/rec/T-REC-P.800.2/en

lTU-T Recommendation P.805. (2007). Subjective evaluation of conversational quality. Retrieved February 9, 2021, from: https://www.itu.int/rec/T-REC-P.805/en

Janyoi, P., & Seresangtakul, P. (2017). An Isarn dialect HMM-based text-to-speech system. Proc. INCIT 2017, doi: 10.1109/INCIT.2017.8257873

Kertkeidkachorn, N., Chanjaradwichai, S., Punyabukkana, P., & Suchato, A. (2014). CHULA TTS: A modularized text-to-speech framework. In Proc. of PACLIC. (pp. 414–421). Phuket, Thailand. Retrieved February 9, 2021, from: https://www.aclweb.org/anthology/Y14-1048.pdf

Martin, A. F., Malfaz, M., Castro-González, A., Castillo, C. J., & Salichs, A. M. (2020). Four-Features Evaluation of Text to Speech Systemsfor Three Social Robots,” Electronics, 9(2), 1-23. Retrieved February 9, 2021, from: https://www.mdpi.com/2079-9292/9/2/267/pdf

Martín, B. S. (2017). Translation Quality Assessment of Google Translate and Microsoft Bing Translator. Thesis, Universidad de Valladolid, spain. Retrieved February 9, 2021, from: http://uvadoc.uva.es/bitstream/handle/10324/22596/TFG_F_2017_7.pdf?sequence=1&isAllowed=y

Pornpongtechavanich, P. & Daengsi, T. (2019). Video Telephony - Quality of Experience: A Simple QoE Model to Assess Video Calls Using Subjective Approach. Multimedia Tools and Applications, 78(22), 31987-32006. Retrieved February 9, 2021, from: https://link.springer.com/article/10.1007/s11042-019-07928-z

ReadSpeaker. (2020). TTS Software Use Cases. Retrieved February 9, 2021, from: https://www.readspeaker.com/tts-software-use-cases/

Shirali-Shahreza, S., & Penn, G. (2018). MOS Naturalness and the quest for human-like speech. In Proc. of IEEE SLT Workshop. (pp. 346-352) Athens, Greece. Retrieved February 9, 2021, from: https://doi.org/10.1109/SLT.2018.8639599

Siri Team. (2017). Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis. Retrieved May 10, 2020, from: https://machinelearning.apple.com/research/sirivoices

Sriwongchai, S., Setthee, P., & Prasongsook, S. (2017). Study on Behavior of Participation in Solid Waste Management of Burapha University Sakaeo Campus’s Students and Personnel. Burapha Scuence Journal, 22(2), 288-299. Retrieved February 9, 2021, from: http://science.buu.ac.th/ojs246/index.php/sci/article/download/1505/1448

Sornlertlamvanich, V., Potipiti, T., Wutiwiwatchai C., & Mittrapiyanuruk P. (2020). The State of the Art in Thai Language Processing. In Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. (pp. 1-2). Bangkok, Thailand. Retrieved February 9, 2021, from: https://dl.acm.org/doi/pdf/10.3115/ 1075218.1075296

Wutiwiwatchai, C., Hansakunbuntheung, C., Rugchatjaroen, A., Saychum, S., Kasuriya S. & Chootrakool P. (2017). Thai Text-to-Speech Synthesis: A Review. Journal of Intelligent Informatics and Smart Technology, 2, 1-8. Retrieved February 9, 2021, from: https://jiist.aiat.or.th/assets/uploads/1507618319428sW8WxJ002.1_Chai_ ThaiTTS.pdf

Wuttidittachotti, P., Khaoduang, P., and Daengsi, T. (2018). MOS Estimation Model Development Using ACR Listening-Opinion Tests with Thai Users Referring to Loss Effects: A Case of G.726 and G.729. Multimedia Systems, Vol. 24(3), pp. 285–295.

Downloads

Published

2022-09-29