Pantip Multi-turn Datasets Generating from Thai Large Social Platform Forum Using Sentence Similarity Techniques

Anon Sae-Oueng; Kun Kerdthaisong; Kittisak Sukhantharat; Pakawat Phasook; Piyawat Chuangkrud; Chaianun Damrongrat; Sarawoot Kongyoung

doi:10.1109/isai-nlp64410.2024.10799403

Pantip Multi-turn Datasets Generating from Thai Large Social Platform Forum Using Sentence Similarity Techniques

dc.contributor.author	Anon Sae-Oueng
dc.contributor.author	Kun Kerdthaisong
dc.contributor.author	Kittisak Sukhantharat
dc.contributor.author	Pakawat Phasook
dc.contributor.author	Piyawat Chuangkrud
dc.contributor.author	Chaianun Damrongrat
dc.contributor.author	Sarawoot Kongyoung
dc.date.accessioned	2026-05-08T19:24:23Z
dc.date.issued	2024-11-11
dc.description.abstract	Fine-tuning Large Language Models (LLMs) for specific domains is crucial. However, lack of Thai open dialogues presents a major challenge. For the major challenge, this study proposes a novel methodology for extracting and constructing multi-turn conversational data from existing Thai large social platform, named Pantip. Our approach implements semantic matching algorithms to identify and compile both single-turn and multi-turn dialogues. By employing a cosine similarity threshold ≥ 0.3, we yields contextually coherent conversation pairs directly from the source data. The outcome dataset represents real Thai conversation styles, which could improve how accurately fine-tuned language models reflect Thai social and linguistic norms. Our approach introduces a new way to use existing publicly available data to create training datasets, which is especially valuable for languages with limited resources. Chaotic Pantip datasets can be contributed to the development of more culturally attuned and linguistically precise Thai language models, potentially advancing culturally-specific natural language processing.
dc.identifier.doi	10.1109/isai-nlp64410.2024.10799403
dc.identifier.uri	https://dspace.kmitl.ac.th/handle/123456789/19565
dc.subject	Natural Language Processing Techniques
dc.subject	Computational and Text Analysis Methods
dc.subject	Topic Modeling
dc.title	Pantip Multi-turn Datasets Generating from Thai Large Social Platform Forum Using Sentence Similarity Techniques
dc.type	Article

Collections

All

Pantip Multi-turn Datasets Generating from Thai Large Social Platform Forum Using Sentence Similarity Techniques

Files

Collections