வேர்களைத்தேடி தளத்திற்குத் தங்களை அன்புடன் வரவேற்கிறேன்... இத்தளத்தில் சங்க இலக்கியம், கணினித்தமிழ் சார்ந்து எனது அனுபவங்களைப் பகிர்ந்து வருகிறேன். 13 ஆண்டுகளில் 1500க்கும் மேற்பட்ட பதிவுகளை வழங்கியுள்ளேன். தற்போது இந்தியக் குடிமைப் பணித்தேர்வுக்கான விருப்பப் பாடம் தமிழுக்குரிய விளக்கங்களைத் தொடர்ந்து வழங்கி வருகிறேன். தங்கள் மேலான வருகைக்கு நன்றிகளைத் தெரிவித்துக்கொள்கிறேன்.

ஞாயிறு, 31 ஆகஸ்ட், 2025

திருக்குறள் பெரிய மொழி மாதிரி நுண் பயிற்சி-Thirukkural Large Language Model (LLM) Fine-tuning

நவில்தொறும் நயம் தரும் நூல் திருக்குறள். அதனால் கற்போரின் அறிவுக்கேற்ப புதிய புதிய சிந்தனைகளைத் தருகிறது. இன்றைய செயற்கை நுண்ணறிவு வளர்ச்சியால், பல வடிவங்களில் இணையத்தில் தரவுகளாக இந்நூல் கிடைக்கின்றது. திருக்குறளின் மூல பாடம், உரை தொடர்பான விளக்கங்களை உரை, ஒலி, காணொலி, குறுஞ்செயலி, சொல்லடைவு, தொடரடைவு வடிவிலும் பெறமுடிகிறது. திருக்குறள் ஏஐ என்ற தளம் ஒரு தேடுபொறிபோல செயல்படுகிறது. சாட் ஜி.பி.டி, ஜெமினி போன்ற செயற்கை நுண்ணறிவு உரையாடிகள் வழியாக குறள் விளக்கங்களைப் படங்களாகவும், காணொலிகளாகவும் உருவாக்கமுடிகிறது. என்றாலும் பதில்களின் துல்லியத்தன்மை, நம்பகத்தன்மை குறைவாகவே உள்ளது. இச்சூழலில் LLM என அழைக்கப்படும் பெரிய மொழி மாதிரிகளை திருக்குறளுக்கென நுட்பமாக வடிவமைத்தல் மற்றும் அவற்றுக்கான நுண்பயிற்சியளித்தல் காலத்தின் தேவையாகிறது.

திருக்குறள்- பெரிய மொழி மாதிரிகள், நுண்பயிற்சி

பொதுவான LLM மாதிரிகள், இணையத்தில் உள்ள பல்லாயிரக்கணக்கான தரவுகளைக் கொண்டு பயிற்சி பெற்றிருக்கும். சாட் ஜிபிடி, ஜெமினி போன்ற உரையாடிகள் இலவசம், கட்டணம் என இருநிலைகளில் பயன்படுத்தப்படுகின்றன. அதற்கேற்ப தேடல் முடிவுகளும் வேறுபடுகின்றன. ஜெமினி உரையாடி, ஜூலை 10-2025 தேதி வரையிலான தரவுகளைத் தமிழில் வைத்திருப்பதாக குறிப்பிடுகிறது. ஆனால், திருக்குறள் போன்ற ஒரு குறிப்பிட்ட துறை சார்ந்த, ஆழமான அறவியல் கருத்துகளைக் கொண்ட ஒரு இலக்கியத்தைப் புரிந்துகொள்ளவும், அதிலிருந்து துல்லியமான பதில்களை உருவாக்கவும் இதுவரை உள்ள தரவுகள் போதுமானவை அல்ல. ”LLM-கள் மனித மொழியைப் புரிந்துகொண்டு, அதைப் பகுப்பாய்வு செய்து, உகந்த பதில்களை உருவாக்கும் திறன் கொண்டவை. இவை Pretraining மற்றும் Fine-Tuning போன்ற செயல்முறைகள் மூலம் பயிற்சி பெறுகின்றன” (என்கிறார் கணியம் தமிழரசன் (2025). அதனால் திருக்குறளுக்கென பெரிய மொழி மாதிரிகளை உருவாக்கி ஜெமினி போன்ற உரையாடிகளுக்கு நுண்பயிற்சி (Fine-tuning) செய்வதன் மூலம், இக்கருவிகள் வழியாக திருக்குறள் தொடர்பான துல்லியமான பதில்களைப் பெறமுடியும்.

விரிதரவு (Corpus)

இயற்கை மொழி செயலாக்கத்தில் (Natural Language Processing - NLP), விரிதரவு (Corpus) என்பது ஒரு பெரிய, கட்டமைக்கப்பட்ட மொழித் தரவுத் தொகுப்பாகும். இது மொழியியல் ஆய்வுகளுக்கும், மொழி மாதிரிகளைப் பயிற்றுவிப்பதற்கும் பயன்படுத்தப்படுகிறது. விரிதரவு, மூல உரை (Plain Corpus) மற்றும் இலக்கண, மொழியியல் விவரங்கள் கொண்ட விரிதரவு (Tagged Corpus) என இருவகைப்படும். திறந்த மூல உரிமத்துடன் கிடைக்கும் தரவுகள் பெரிதும் மூல உரை விரிதரவாகவே உள்ளன. அதனால் திருக்குறளுக்கான, இலக்கண, மொழியியல் விளக்கத்துடன் கூடிய தரவுகளை உருவாக்கவேண்டிய தேவை உள்ளது.

1. பெரிய மொழி மாதிரி விளக்கம் -Large Language Model (LLM)

பெரிய மொழி மாதிரி என்பது ஒரு வகை செயற்கை நுண்ணறிவு ஆகும். இது இணையத்தில் உள்ள பல்வேறு உரைத் தரவுகளைப் (Text data) பயிற்சி செய்வதன் மூலம் மொழி பற்றிய ஆழமான புரிதலைப் பெறுகிறது. “மனித மொழியைப் புரிந்துகொள்ளவும், உருவாக்கவும் பயிற்சி பெற்ற ஆழமான கற்றல் (Deep Learning) நுட்பங்களைப் பயன்படுத்தி வடிவமைக்கப்பட்ட கணினி நிரலாகும்”

என்ற விளக்கம் விக்கிப்பீடியாவில் உள்ளது. திருக்குறளை, இலக்கணம் மற்றும் மொழியியல் பகுப்பாய்வு அடிப்படையில் பெரிய மொழி மாதிரியாக உருவாக்கி நுண்பயிற்சி வழங்கினால் மேலும் துல்லியமான தேடல் முடிவுகளைப் பெறமுடியும்.

2. தரவுத் தயாரிப்பு (Data Preparation)

குறள் எண், மூலபாடம், சொல் பகுப்பாய்வு, அதிகார விளக்கம், தொடர்புடைய அரிகாரங்கள், இணைச் சொற்கள், உரை விளக்கம்1,2, ஆங்கில உரை, உணர்வுப் பகுப்பாய்வு, குறள் தொடர்பான கேள்வி பதில், படம் மற்றும் காணொலி தொடர்பான குறிச்சொற்கள், விலங்கு, பறவை, தாவரங்கள் தொடர்புடைய குறள்கள், மையக்கருத்து, பயன்பாட்டுச் சூழல், உவமை தொடர்பான செய்திகள் என மிகப்பெரிய அளவிலான தரவுகளை உருவாக்குதல் வேண்டும். இத்தரவுகளை கூகுள் விரிதாள், அல்லது எம்.எஸ். விரிதாளிலில் உருவாக்கி CSV கோப்பு வடிவில் சேமிக்கவேண்டும்.பிறகு JSONL வடிவில் மாற்றிக்கொள்ளலாம். திருக்குறளுக்கான பெரிய மொழி மாதிரித் தரவுகளுள், செல்வகுமாரின் தரவு குறிப்பிடத்தக்கதாக உள்ளது. இதில்,

“இந்த dataset JSONL (JSON Lines) format-ல் உள்ளது. ஒவ்வொரு திருக்குறளுக்கும் அதன் பல்வேறு உரைகள் சேர்த்து கொடுக்கப்பட்டுள்ளன. திருக்குறளை chat-style question-answer format-ஆக fine-tune செய்யலாம்“என்ற குறிப்புடன் இத்தரவு உள்ளது. மேலும், திறந்த மூல உரிமத்துடன் திருக்குறளுக்கான பல தரவுகள் உருவாக்கப்பட்டிருந்தாலும் திருக்குறளின் ஆழமான கருத்துகளை வெளிப்படுத்த மேலும் பல நுட்பங்களுடன் மொழி மாதிரிகளை உருவாக்கவேண்டும்.

3. தரவு முன் செயலாக்கம் (Data preprocessing)

தரவுகளில் எழுத்துப் பிழைகள், இலக்கணப் பிழைகள், அல்லது கருத்துப் பிழைகள் இருந்தால் அவற்றைச் சரிசெய்யவேண்டும். “தரவை சுத்தம் செய்து, ஒழுங்கமைத்து பயிற்சிக்கு ஏற்றவாறு மாற்றவேண்டும். தரவு முன் செயலாக்கத்தின் முக்கிய நோக்கம் தரவின் தரத்தை மேம்படுத்துவது“(ஜெயஸ்ரீ சுவாமிநாதன்,2024) என்று செயற்கை நுண்ணறிவு நூல் குறிப்பிடுகிறது.

4. சொல் பகுப்பு (Tokenization) அணுகுமுறைகள்

இலக்கண, மொழியியல் அடிப்படையிலான சொல் பகுப்பு நுண்பயிற்சிக்கு ஏற்றதாகும். பெரிய உரைத் தொகுப்பை, சிறிய, தனித்தனி அலகுகளாகப் பிரித்து வழங்குவதால் பெரிய மொழி மாதிரிகள் எளிதில் புரிந்துகொள்ளும். நுண் பயிற்சியில் சொல்பகுப்பு என்பது LLM-க்கு மனித மொழியைப் புரிந்துகொள்ள உதவும் ஒரு பாலமாகும். ”சொல் பகுப்பு சரியாக இருந்தால், (Parts of Speech -POS Tagging) விதி அடிப்படையிலான பகுப்பாய்வுக்கும் இயந்திரக் கற்றலுக்கும் எளிமையாக இருக்கும்“என்பார் ரீமா தெரசா(2024). மொழி தெரியாத ஒருவருக்கு உடலசைவு மொழி அவரின் கருத்தை வெளிப்படுத்த எவ்வளவு துணைபுரிகிறதோ அதுபோல சொல் பகுப்பு நேர்த்தியாக இருந்தால் நுண்பயிற்சிக்குப் பின் துல்லியமான முடிவுகளைப் பெறமுடியும்.

5. பயிற்சிக்கான மாதிரியைத் தேர்ந்தெடுத்தல்

ஜெமினி API, OpenAI chat models, Llama 2 போன்ற பல மொழி மாதிரிகள் உள்ளன. “கூகுள் ஏஐ ஸ்டுடியோ“ 6 (Application Programming Interface) மேம்படுத்துநர்கள், ஆற்றல்வாய்ந்த பெரிய மொழி மாதிரிகளை அணுகி, தங்கள் சொந்தப் பயன்பாடுகள், சேவைகள் மற்றும் தயாரிப்புகளில் ஒருங்கிணைக்க உதவுகிறது. உரை உள்ளீட்டிற்கு மட்டுமல்லாமல், படங்கள், ஒலி போன்ற உள்ளீடுகளுக்கும் பதிலளிக்கும் திறன், மொழிபெய்ப்புத் திறன் திருக்குறள் நுண்பயிற்சிக்குப் பெரிதும் உதவும்.

6. நுண்பயிற்சி செயல்முறை (Fine-tuning Process)

“கூகுள் கிளவுடின் வெர்டெக்ஸ் AI என்பது ஜெனரேட்டிவ் AI ஐ உருவாக்குவதற்கும் பயன்படுத்துவதற்கும் முழுமையாக நிர்வகிக்கப்படும், ஒருங்கிணைந்த AI மேம்பாட்டு தளமாகும்“ (கிளவுட் கூகுள்,2025) gemini-2.5-flash, gemini-2.5-pro போன்ற மாதிரிகளில் ஒன்றைத் தேர்ந்தெடுக்கலாம். Generative AI Studio சென்று, "Tune Model" அல்லது "Create a Custom Model" போன்ற விருப்பத்தைத் தேர்ந்தெடுத்து நுண்பயிற்சி வழங்கலாம். பயிற்சி முடிந்ததும், புதிய நுண் பயிற்சி செய்யப்பட்ட மாதிரி வெர்டெக்ஸ் AI இல் கிடைக்கும். நுண்பயிற்சி வழங்கியபின் சரிபார்ப்புத் தரவுத் தொகுப்பைக் (validation dataset) கொண்டு மதிப்பீடு செய்யவேண்டும். பிறகு அதில் உள்ள குறைகளை நீக்கி மேம்படுத்தவேண்டும்.

7. தனிப்பட்ட தேடுபொறி (CSE)

மேற்கண்ட செயல்முறைகள் கட்டணத்துடனும் அதிகமான தொழில்நுட்ப சிக்கல்களுடனும் மேற்கொள்ளப்படும் என்பதால் வலைப்பதிவு, இணையதளம் போன்ற தளங்களில், வலைத்தள உரிமையாளர் தங்கள் தளத்தில் கூகிளின் தேடல் தொழில்நுட்பத்தைப் பயன்படுத்தி தனிப்பயனாக்கப்பட்ட தேடுபொறியைச் சேர்க்க அனுமதிக்கும் ஒரு சேவை உள்ளது. “(Google Custom Search Engine - CSE)“ (Google Custom Search Engine,2025) நாம் விரும்பும் இணையதளத்தில் திருக்குறள் போன்ற குறிப்பிட்ட பக்கங்களை பெரிய மொழி மாதிரிக்கான தரவுகளுடன் பக்கங்களாக உருவாக்கி அந்த பக்கங்களின் முகவரி மற்றும் முதன்மைப் பக்க முகவரியை கூகுள் தனிப்பயனாக்க தேடுபொறிப் பக்கத்தில் இணைத்து அதன் தேடல் பெட்டியை விரும்பும் இணையதளத்தில் இணைக்கவேண்டும். குறிப்பாக பார்வையாளர்கள் தேடும்போது நாம் குறிப்பிட்ட பக்கங்களுக்கு முன்னுரிமை வழங்கவேண்டும் என்று தேர்ந்தெடுத்தால் ஓரளவுக்குத் துல்லியமான உரைத் தேடல் முடிவுகளைப் பெறமுடியும். இவ்வாறு திருக்குறளுக்கான தரவுகளை உள்ளீடுசெய்து தனிப்பயனாக்கப்பட்ட தேடுபொறி, “வேர்களைத்தேடி“ (https://www.gunathamizh.com/) என்ற தளத்தில் வெளியிடப்பட்டுள்ளது. ஆனால் படம் உருவாக்குதல், வீடியோ உருவாக்குதல், கவிதை, கதை உருவாக்குதல் என பல்லூடகம் சார்ந்த முடிவுகளைப் பெற இந்த நுட்பம் போதுமானதல்ல.

8. பயன்கள், தடைகள்,எதிர்காலம் (Gen AI, AI Agent)

திருக்குறளுக்கென தனிப்பட்ட பெரிய மொழி மாதிரியை உருவாக்கினால், திருக்குறள் தொடர்பான துல்லியமான செய்திகளை, எழுத்து வடிவில் கதையாகவே, கவிதையாகவோ பெறமுடியும். திருக்குறள் செயற்கை நுண்ணறிவு உரையாடி, படம் உருவாக்கம், காணொலி உருவாக்கம், விளையாட்டு உருவாக்கம், கேள்வி பதில் உருவாக்கம், அதிகாரத்தின் சுருக்கமான கருத்து, குறளில் இடம்பெறும் உணர்வுகளை அறிதல், மொழிபெயர்ப்பு என பல பயன்களைப் பெறமுடியும்.

இலக்கண, மொழியியல் அடிப்படையிலான சொல் பகுப்பாய்வு, பல்வேறு உரைகளில் நடுநிலையுடன் சரியான உரையைத் தேர்ந்தெடுத்தல், வெகுளி, கேண்மை போன்ற பொருள் மாறிய, வழக்கொழிந்த சொற்களுக்கு இணையான சொற்களைப் பரிந்துரை செய்தல், உரைத் தரவுகள் மட்டுமின்றி ஒலி, படம், காணொலி உருவாக்குதலுக்கேற்ற தரவுகளை உருவாக்குதலில் அச்சுவடிவில் உள்ள பல நூல்களை ஒருங்குறியாக மாற்றுதல் மதிப்பீடு செய்யப்பட்ட படைப்பாக்கப் பொதும அடிப்படையிலான தரவுகளைப் பெறுதல் பெரிய தடையாக உள்ளது.

எதிர்காலத்தில் திருக்குறளுக்கென தனியான தேடுபொறி, உரையாடி, திருக்குறளுக்கென மெய்நிகர் ஆசிரியர் அல்லது கற்பித்தல் உதவியாளர் என பல வியக்கத்தக்க செயற்கை நுண்ணறிவுக் கருவிகளை உருவாக்கமுடியும்.

நிறைவுரை

திருக்குறளுக்குப் பல்வேறு உரைகள் காலந்தோறும் எழுதப்பட்டுள்ளன. ஒரு குறளுக்கு பல்வேறு விளக்கங்கள் உள்ளன. இந்நூலில் உள்ள பல சொற்கள் வழக்கொழிந்துவிட்டன. மதச்சார்பற்ற நூல் என்பதைக் கருத்தில் கொண்டு திருக்குறளுக்கான பெரிய மொழி மாதிரியை உருவாக்குதலில் சில தடைகள் இருந்தாலும் திட்டமிட்டு உருவாக்கினால் தமிழ் மொழியின் பெருமையை உலகறியும் என்பது மட்டுமின்றி மனிதகுலம் பயன்பெறும்.

குறிச்சொற்கள்

திருக்குறள், பெரிய மொழி மாதிரி, இயற்கை மொழி செயலாக்கம், நுண்பயிற்சி, செயற்கை நுண்ணறிவு, (Natural Language Processing - NLP), Large Language Model (LLM), Fine-tuning), Artificial Intelligence, Gen AI

References

1. தமிழரசன்,(2025, February 6). LLM-களின் கட்டமைப்பு மற்றும் செயல்பாடு. கணியம். Retrieved from http://kaniyam.com/large-language-models-workings-in-tamil/

2. பெரிய மொழி மாதிரி,. Retrieved August 01, 2025, from https://ta.wikipedia.org/wiki/பெரிய_மொழி_மாதிரி

3. செல்வக்குமார்துரைப்பாண்டியன், திருக்குறள் Dataset. Retrieved August 01, 2025, from https://huggingface.co/datasets/Selvakumarduraipandian/Thirukural

4. ஜெயஸ்ரீ சுவாமிநாதன். (April, 2024) p60. செயற்கை நுண்ணறிவு எதிர்காலத்தை வடிவமைக்கும் நண்பன் (I ed.). Chennai: NCBH.

5. Reema Thareja, Artificial Intelligence. Classical AI. 2023, p365.

6. ஏஐ ஸ்டுடியோ கூகுள். Retrieved from (2025)https://aistudio.google.com/

7. கிளவுட் கூகுள். Retrieved 2025, from (2025). https://cloud.google.com/vertex-ai

8. கூகுள் தனிப்பயன் தேடுபொறி,Google Custom Search Engine - CSE. Retrieved 2025, from https://programmablesearchengine.google.com/about/

9. வேர்களைத்தேடி, Retrieved from (2025) https://www.gunathamizh.com/p/blog-page_8.html

(29.08.2025 அன்று கோயம்புத்தூர் பி.எஸ்.ஜி கிருஷ்ணம்மாள் மகளிர் கல்லூரியில் தமிழ் அநிதத்துடன் இணைந்து நடத்திய தமிழ் செயற்கை நுண்ணறிவு 2025 கல்வியியல் மாநாட்டில் வழங்கிய கட்டுரை)

நன்றி

பக்கங்கள்

ஞாயிறு, 31 ஆகஸ்ட், 2025

திருக்குறள் பெரிய மொழி மாதிரி நுண் பயிற்சி-Thirukkural Large Language Model (LLM) Fine-tuning

References

கருத்துகள் இல்லை:

கருத்துரையிடுக