நவில்தொறும் நயம் தரும் நூல் திருக்குறள். அதனால் கற்போரின் அறிவுக்கேற்ப புதிய புதிய சிந்தனைகளைத் தருகிறது. இன்றைய செயற்கை நுண்ணறிவு வளர்ச்சியால், பல வடிவங்களில் இணையத்தில் தரவுகளாக இந்நூல் கிடைக்கின்றது. திருக்குறளின் மூல பாடம், உரை தொடர்பான விளக்கங்களை உரை, ஒலி, காணொலி, குறுஞ்செயலி, சொல்லடைவு, தொடரடைவு வடிவிலும் பெறமுடிகிறது. திருக்குறள் ஏஐ என்ற தளம் ஒரு தேடுபொறிபோல செயல்படுகிறது. சாட் ஜி.பி.டி, ஜெமினி போன்ற செயற்கை நுண்ணறிவு உரையாடிகள் வழியாக குறள் விளக்கங்களைப் படங்களாகவும், காணொலிகளாகவும் உருவாக்கமுடிகிறது. என்றாலும் பதில்களின் துல்லியத்தன்மை, நம்பகத்தன்மை குறைவாகவே உள்ளது. இச்சூழலில் LLM என அழைக்கப்படும் பெரிய மொழி மாதிரிகளை திருக்குறளுக்கென நுட்பமாக வடிவமைத்தல் மற்றும் அவற்றுக்கான நுண்பயிற்சியளித்தல் காலத்தின் தேவையாகிறது.
திருக்குறள்- பெரிய மொழி மாதிரிகள், நுண்பயிற்சி
பொதுவான LLM மாதிரிகள், இணையத்தில் உள்ள பல்லாயிரக்கணக்கான தரவுகளைக் கொண்டு பயிற்சி பெற்றிருக்கும். சாட் ஜிபிடி, ஜெமினி போன்ற உரையாடிகள் இலவசம், கட்டணம் என இருநிலைகளில் பயன்படுத்தப்படுகின்றன. அதற்கேற்ப தேடல் முடிவுகளும் வேறுபடுகின்றன. ஜெமினி உரையாடி, ஜூலை 10-2025 தேதி வரையிலான தரவுகளைத் தமிழில் வைத்திருப்பதாக குறிப்பிடுகிறது. ஆனால், திருக்குறள் போன்ற ஒரு குறிப்பிட்ட துறை சார்ந்த, ஆழமான அறவியல் கருத்துகளைக் கொண்ட ஒரு இலக்கியத்தைப் புரிந்துகொள்ளவும், அதிலிருந்து துல்லியமான பதில்களை உருவாக்கவும் இதுவரை உள்ள தரவுகள் போதுமானவை அல்ல. ”LLM-கள் மனித மொழியைப் புரிந்துகொண்டு, அதைப் பகுப்பாய்வு செய்து, உகந்த பதில்களை உருவாக்கும் திறன் கொண்டவை. இவை Pretraining மற்றும் Fine-Tuning போன்ற செயல்முறைகள் மூலம் பயிற்சி பெறுகின்றன” (என்கிறார் கணியம் தமிழரசன் (2025). அதனால் திருக்குறளுக்கென பெரிய மொழி மாதிரிகளை உருவாக்கி ஜெமினி போன்ற உரையாடிகளுக்கு நுண்பயிற்சி (Fine-tuning) செய்வதன் மூலம், இக்கருவிகள் வழியாக திருக்குறள் தொடர்பான துல்லியமான பதில்களைப் பெறமுடியும்.
விரிதரவு
(Corpus)
இயற்கை மொழி செயலாக்கத்தில் (Natural Language Processing - NLP), விரிதரவு
(Corpus) என்பது
ஒரு பெரிய, கட்டமைக்கப்பட்ட
மொழித் தரவுத் தொகுப்பாகும். இது மொழியியல் ஆய்வுகளுக்கும், மொழி மாதிரிகளைப்
பயிற்றுவிப்பதற்கும் பயன்படுத்தப்படுகிறது. விரிதரவு,
மூல உரை (Plain
Corpus) மற்றும் இலக்கண, மொழியியல்
விவரங்கள் கொண்ட விரிதரவு (Tagged Corpus)
என இருவகைப்படும். திறந்த மூல உரிமத்துடன்
கிடைக்கும் தரவுகள் பெரிதும் மூல உரை விரிதரவாகவே உள்ளன. அதனால் திருக்குறளுக்கான,
இலக்கண, மொழியியல் விளக்கத்துடன் கூடிய தரவுகளை உருவாக்கவேண்டிய தேவை உள்ளது.
1.
பெரிய மொழி மாதிரி விளக்கம்
-Large Language Model (LLM)
பெரிய மொழி
மாதிரி என்பது ஒரு வகை செயற்கை நுண்ணறிவு ஆகும். இது இணையத்தில் உள்ள பல்வேறு உரைத் தரவுகளைப் (Text
data) பயிற்சி செய்வதன் மூலம் மொழி பற்றிய ஆழமான புரிதலைப்
பெறுகிறது. “மனித
மொழியைப் புரிந்துகொள்ளவும், உருவாக்கவும்
பயிற்சி பெற்ற ஆழமான கற்றல் (Deep Learning) நுட்பங்களைப்
பயன்படுத்தி வடிவமைக்கப்பட்ட கணினி நிரலாகும்”
என்ற விளக்கம் விக்கிப்பீடியாவில் உள்ளது. திருக்குறளை, இலக்கணம்
மற்றும் மொழியியல் பகுப்பாய்வு அடிப்படையில் பெரிய மொழி மாதிரியாக உருவாக்கி நுண்பயிற்சி
வழங்கினால் மேலும் துல்லியமான தேடல் முடிவுகளைப் பெறமுடியும்.
குறள் எண்,
மூலபாடம்,
சொல்
பகுப்பாய்வு, அதிகார விளக்கம்,
தொடர்புடைய அரிகாரங்கள், இணைச் சொற்கள், உரை விளக்கம்1,2,
ஆங்கில
உரை, உணர்வுப் பகுப்பாய்வு,
குறள் தொடர்பான கேள்வி பதில்,
படம்
மற்றும் காணொலி தொடர்பான குறிச்சொற்கள், விலங்கு,
பறவை,
தாவரங்கள்
தொடர்புடைய குறள்கள், மையக்கருத்து,
பயன்பாட்டுச்
சூழல், உவமை தொடர்பான
செய்திகள் என மிகப்பெரிய அளவிலான தரவுகளை உருவாக்குதல்
வேண்டும். இத்தரவுகளை கூகுள் விரிதாள், அல்லது எம்.எஸ். விரிதாளிலில் உருவாக்கி CSV கோப்பு வடிவில் சேமிக்கவேண்டும்.பிறகு JSONL
வடிவில் மாற்றிக்கொள்ளலாம். திருக்குறளுக்கான பெரிய மொழி மாதிரித்
தரவுகளுள், செல்வகுமாரின் தரவு குறிப்பிடத்தக்கதாக உள்ளது. இதில்,
“இந்த dataset JSONL
(JSON Lines) format-ல் உள்ளது. ஒவ்வொரு திருக்குறளுக்கும் அதன்
பல்வேறு உரைகள் சேர்த்து
கொடுக்கப்பட்டுள்ளன. திருக்குறளை chat-style
question-answer format-ஆக fine-tune செய்யலாம்“என்ற
குறிப்புடன் இத்தரவு உள்ளது. மேலும், திறந்த மூல உரிமத்துடன்
திருக்குறளுக்கான பல தரவுகள் உருவாக்கப்பட்டிருந்தாலும் திருக்குறளின் ஆழமான கருத்துகளை
வெளிப்படுத்த மேலும் பல நுட்பங்களுடன் மொழி மாதிரிகளை உருவாக்கவேண்டும்.
3.
தரவு முன் செயலாக்கம் (Data preprocessing)
தரவுகளில் எழுத்துப் பிழைகள், இலக்கணப் பிழைகள், அல்லது கருத்துப் பிழைகள் இருந்தால் அவற்றைச் சரிசெய்யவேண்டும். “தரவை சுத்தம் செய்து, ஒழுங்கமைத்து பயிற்சிக்கு ஏற்றவாறு மாற்றவேண்டும்.
தரவு முன் செயலாக்கத்தின் முக்கிய நோக்கம் தரவின் தரத்தை மேம்படுத்துவது“(ஜெயஸ்ரீ சுவாமிநாதன்,2024)
என்று செயற்கை நுண்ணறிவு நூல் குறிப்பிடுகிறது.
4.
சொல் பகுப்பு (Tokenization)
அணுகுமுறைகள்
இலக்கண,
மொழியியல்
அடிப்படையிலான சொல் பகுப்பு நுண்பயிற்சிக்கு ஏற்றதாகும்.
பெரிய
உரைத் தொகுப்பை, சிறிய, தனித்தனி அலகுகளாகப்
பிரித்து வழங்குவதால் பெரிய மொழி மாதிரிகள் எளிதில்
புரிந்துகொள்ளும். நுண் பயிற்சியில் சொல்பகுப்பு என்பது LLM-க்கு மனித மொழியைப் புரிந்துகொள்ள
உதவும் ஒரு பாலமாகும். ”சொல் பகுப்பு சரியாக இருந்தால், (Parts of Speech -POS Tagging) விதி அடிப்படையிலான
பகுப்பாய்வுக்கும் இயந்திரக் கற்றலுக்கும் எளிமையாக இருக்கும்“என்பார் ரீமா தெரசா(2024). மொழி தெரியாத ஒருவருக்கு உடலசைவு மொழி அவரின் கருத்தை வெளிப்படுத்த
எவ்வளவு துணைபுரிகிறதோ அதுபோல சொல் பகுப்பு நேர்த்தியாக இருந்தால் நுண்பயிற்சிக்குப்
பின் துல்லியமான முடிவுகளைப் பெறமுடியும்.
5.
பயிற்சிக்கான மாதிரியைத் தேர்ந்தெடுத்தல்
ஜெமினி API,
OpenAI chat models, Llama 2 போன்ற பல மொழி மாதிரிகள் உள்ளன. “கூகுள்
ஏஐ ஸ்டுடியோ“ 6 (Application Programming Interface) மேம்படுத்துநர்கள், ஆற்றல்வாய்ந்த பெரிய மொழி மாதிரிகளை அணுகி,
தங்கள்
சொந்தப் பயன்பாடுகள், சேவைகள்
மற்றும் தயாரிப்புகளில் ஒருங்கிணைக்க உதவுகிறது. உரை உள்ளீட்டிற்கு
மட்டுமல்லாமல், படங்கள்,
ஒலி போன்ற உள்ளீடுகளுக்கும் பதிலளிக்கும் திறன்,
மொழிபெய்ப்புத் திறன் திருக்குறள் நுண்பயிற்சிக்குப் பெரிதும் உதவும்.
6.
நுண்பயிற்சி செயல்முறை (Fine-tuning
Process)
“கூகுள்
கிளவுடின் வெர்டெக்ஸ் AI என்பது
ஜெனரேட்டிவ் AI ஐ
உருவாக்குவதற்கும் பயன்படுத்துவதற்கும் முழுமையாக நிர்வகிக்கப்படும், ஒருங்கிணைந்த AI மேம்பாட்டு தளமாகும்“ (கிளவுட் கூகுள்,2025)
gemini-2.5-flash, gemini-2.5-pro போன்ற மாதிரிகளில் ஒன்றைத்
தேர்ந்தெடுக்கலாம். Generative AI Studio சென்று, "Tune
Model" அல்லது "Create a Custom Model" போன்ற விருப்பத்தைத் தேர்ந்தெடுத்து நுண்பயிற்சி வழங்கலாம். பயிற்சி முடிந்ததும், புதிய நுண் பயிற்சி
செய்யப்பட்ட மாதிரி வெர்டெக்ஸ் AI இல் கிடைக்கும். நுண்பயிற்சி
வழங்கியபின் சரிபார்ப்புத் தரவுத் தொகுப்பைக்
(validation dataset) கொண்டு மதிப்பீடு செய்யவேண்டும். பிறகு
அதில் உள்ள குறைகளை நீக்கி மேம்படுத்தவேண்டும்.
7.
தனிப்பட்ட தேடுபொறி (CSE)
மேற்கண்ட
செயல்முறைகள் கட்டணத்துடனும் அதிகமான தொழில்நுட்ப சிக்கல்களுடனும் மேற்கொள்ளப்படும்
என்பதால் வலைப்பதிவு,
இணையதளம் போன்ற
தளங்களில், வலைத்தள
உரிமையாளர் தங்கள் தளத்தில் கூகிளின் தேடல் தொழில்நுட்பத்தைப் பயன்படுத்தி
தனிப்பயனாக்கப்பட்ட தேடுபொறியைச் சேர்க்க அனுமதிக்கும் ஒரு சேவை உள்ளது. “(Google Custom Search
Engine - CSE)“ (Google
Custom Search Engine,2025) நாம் விரும்பும் இணையதளத்தில் திருக்குறள் போன்ற குறிப்பிட்ட
பக்கங்களை பெரிய மொழி மாதிரிக்கான தரவுகளுடன் பக்கங்களாக உருவாக்கி அந்த பக்கங்களின்
முகவரி மற்றும் முதன்மைப் பக்க முகவரியை கூகுள் தனிப்பயனாக்க தேடுபொறிப் பக்கத்தில்
இணைத்து அதன் தேடல் பெட்டியை விரும்பும் இணையதளத்தில் இணைக்கவேண்டும். குறிப்பாக பார்வையாளர்கள்
தேடும்போது நாம் குறிப்பிட்ட பக்கங்களுக்கு முன்னுரிமை வழங்கவேண்டும் என்று தேர்ந்தெடுத்தால்
ஓரளவுக்குத் துல்லியமான உரைத் தேடல் முடிவுகளைப் பெறமுடியும். இவ்வாறு திருக்குறளுக்கான
தரவுகளை உள்ளீடுசெய்து தனிப்பயனாக்கப்பட்ட தேடுபொறி, “வேர்களைத்தேடி“ (https://www.gunathamizh.com/)
என்ற தளத்தில் வெளியிடப்பட்டுள்ளது. ஆனால் படம் உருவாக்குதல், வீடியோ உருவாக்குதல்,
கவிதை, கதை உருவாக்குதல் என பல்லூடகம் சார்ந்த முடிவுகளைப் பெற இந்த நுட்பம் போதுமானதல்ல.
8.
பயன்கள்,
தடைகள்,எதிர்காலம்
(Gen AI, AI Agent)
திருக்குறளுக்கென தனிப்பட்ட பெரிய மொழி மாதிரியை உருவாக்கினால்,
திருக்குறள் தொடர்பான துல்லியமான செய்திகளை, எழுத்து வடிவில் கதையாகவே, கவிதையாகவோ
பெறமுடியும். திருக்குறள் செயற்கை நுண்ணறிவு உரையாடி, படம் உருவாக்கம், காணொலி உருவாக்கம்,
விளையாட்டு உருவாக்கம், கேள்வி பதில் உருவாக்கம், அதிகாரத்தின் சுருக்கமான கருத்து,
குறளில் இடம்பெறும் உணர்வுகளை அறிதல், மொழிபெயர்ப்பு என பல பயன்களைப் பெறமுடியும்.
இலக்கண,
மொழியியல் அடிப்படையிலான சொல் பகுப்பாய்வு, பல்வேறு உரைகளில் நடுநிலையுடன் சரியான உரையைத்
தேர்ந்தெடுத்தல், வெகுளி, கேண்மை போன்ற பொருள் மாறிய, வழக்கொழிந்த சொற்களுக்கு இணையான
சொற்களைப் பரிந்துரை செய்தல், உரைத் தரவுகள் மட்டுமின்றி ஒலி, படம், காணொலி உருவாக்குதலுக்கேற்ற
தரவுகளை உருவாக்குதலில் அச்சுவடிவில் உள்ள பல நூல்களை ஒருங்குறியாக மாற்றுதல் மதிப்பீடு
செய்யப்பட்ட படைப்பாக்கப் பொதும அடிப்படையிலான தரவுகளைப் பெறுதல் பெரிய தடையாக உள்ளது.
எதிர்காலத்தில்
திருக்குறளுக்கென தனியான தேடுபொறி, உரையாடி, திருக்குறளுக்கென மெய்நிகர் ஆசிரியர் அல்லது
கற்பித்தல் உதவியாளர் என பல வியக்கத்தக்க செயற்கை நுண்ணறிவுக் கருவிகளை உருவாக்கமுடியும்.
நிறைவுரை
திருக்குறளுக்குப் பல்வேறு உரைகள் காலந்தோறும் எழுதப்பட்டுள்ளன.
ஒரு குறளுக்கு பல்வேறு விளக்கங்கள் உள்ளன. இந்நூலில் உள்ள பல சொற்கள் வழக்கொழிந்துவிட்டன. மதச்சார்பற்ற
நூல் என்பதைக் கருத்தில் கொண்டு திருக்குறளுக்கான பெரிய மொழி மாதிரியை உருவாக்குதலில்
சில தடைகள் இருந்தாலும் திட்டமிட்டு உருவாக்கினால் தமிழ் மொழியின் பெருமையை உலகறியும்
என்பது மட்டுமின்றி மனிதகுலம் பயன்பெறும்.
குறிச்சொற்கள்
திருக்குறள்,
பெரிய மொழி மாதிரி, இயற்கை மொழி செயலாக்கம்,
நுண்பயிற்சி, செயற்கை நுண்ணறிவு, (Natural Language Processing - NLP), Large
Language Model (LLM), Fine-tuning),
Artificial Intelligence, Gen AI
References
1.
தமிழரசன்,(2025, February 6). LLM-களின் கட்டமைப்பு மற்றும் செயல்பாடு. கணியம். Retrieved from http://kaniyam.com/large-language-models-workings-in-tamil/
2.
பெரிய மொழி மாதிரி,. Retrieved August 01, 2025, from https://ta.wikipedia.org/wiki/பெரிய_மொழி_மாதிரி
3.
செல்வக்குமார்துரைப்பாண்டியன், திருக்குறள் Dataset. Retrieved August 01, 2025, from https://huggingface.co/datasets/Selvakumarduraipandian/Thirukural
4.
ஜெயஸ்ரீ சுவாமிநாதன். (April, 2024) p60. செயற்கை நுண்ணறிவு எதிர்காலத்தை
வடிவமைக்கும் நண்பன் (I ed.). Chennai: NCBH.
5.
Reema Thareja, Artificial
Intelligence. Classical AI. 2023, p365.
6.
ஏஐ ஸ்டுடியோ கூகுள். Retrieved from
(2025)https://aistudio.google.com/
7.
கிளவுட் கூகுள். Retrieved 2025, from (2025). https://cloud.google.com/vertex-ai
8.
கூகுள்
தனிப்பயன் தேடுபொறி,Google Custom Search Engine - CSE. Retrieved 2025, from https://programmablesearchengine.google.com/about/
9. வேர்களைத்தேடி, Retrieved from (2025) https://www.gunathamizh.com/p/blog-page_8.html
நன்றி
கருத்துகள் இல்லை:
கருத்துரையிடுக