வேர்களைத்தேடி தளத்திற்குத் தங்களை அன்புடன் வரவேற்கிறேன்... இத்தளத்தில் சங்க இலக்கியம், கணினித்தமிழ் சார்ந்து எனது அனுபவங்களைப் பகிர்ந்து வருகிறேன். 13 ஆண்டுகளில் 1500க்கும் மேற்பட்ட பதிவுகளை வழங்கியுள்ளேன். தற்போது இந்தியக் குடிமைப் பணித்தேர்வுக்கான விருப்பப் பாடம் தமிழுக்குரிய விளக்கங்களைத் தொடர்ந்து வழங்கி வருகிறேன். தங்கள் மேலான வருகைக்கு நன்றிகளைத் தெரிவித்துக்கொள்கிறேன்.

சனி, 25 நவம்பர், 2023

செயற்கை நுண்ணறிவு உரையாடிகளில் தமிழ்

(Tamil in Artificial Intelligence Chatbots)

முனைவர் இரா.குணசீலன்

தமிழ் இணைப்பேராசிரியர்

பி.எஸ்.ஜி. கலை அறிவியல் கல்லூரி

கோயம்புத்தூர்


               மனிதர்களை விலங்குகளுடன் வேறுபடுத்திக்காட்டுவது அறிவு. விலங்குகளைவிட மனிதர்கள் அறிவுடையவர்களாகத் திகழ்வதற்கு கல்வியே அடித்தளமாக அமைகிறது. அதனால் தான் வள்ளுவர் கற்றவர்களுக்கும் கல்லாதவர்களுக்குமான வேறுபாடு, விலங்குகளுக்கும் மனிதர்களுக்குமான வேறுபாடு என்பார். மனிதர்களின் அறிவால் உருவாக்கப்பட்ட கணினி, இயந்திர வழி கற்றல் வழியாக செயற்கை நுண்ணறிவுள்ள கருவியாக உருமாறி வருகின்றது. கணினியின் நுட்பங்களுள் செயற்கை நுண்ணறிவு (Artificial Intelligence) குறிப்பிடத்தக்கது. செயற்கை நுண்ணறிவு உரையாடிகளில் (chatbots) தமிழின் தற்கால நிலையை எடுத்துரைப்பதாக இக்கட்டுரை அமைகிறது.

 

செயற்கை நுண்ணறிவு உரையாடிகளும் எலிசாவும்

          ‘ChatBot‘ என்ற சொல்லை அரட்டை இயலி, உரையாடி என அழைக்கிறோம். சாட்பாட் என்பது ஒரு கணினி நிரலாகும், இது மனிதர்களுடன் உரையாடுவதற்காகப் பயன்படுகிறது. மனிதர்கள் உண்மையான மனிதருடன் தொடர்புகொள்வது போல மின்னணுக் கருவிகளுடன் தொடர்பு கொள்ள அனுமதிக்கிறது. “எலிசா (ELIZA) என்பது ஆரம்பகால இயற்கை மொழி செயலாக்க கணினி நிரலாகும்1. ‘கணினி மென்பொருள் மனிதர்களுடன் உரையாடும்போது மறுமுனையில் உள்ளவருக்கு, தான் பேசிக்கொண்டிருப்பது ஒரு புரோகிராமுடன் என்ற எண்ணம் ஏற்படாத வகையில் உரையாடல் அமையுமானால், அந்த மென்பொருள் செயற்கை நுண்ணறிவு பெற்றிருப்பதாக கருதலாம்2 எனும் கருத்தை டூரிங் என்ற அறிஞர் முன் வைத்திருந்தார். எலிசா கணினி உலகின் முதல் பேசும் மென்பொருளாக கருதப்படுவதோடு, சாட் ஜிபிடிக்கு முன்னோடியாகவும் அமைகிறது. அமெரிக்காவின் எம்..டி பல்கலைக்கழகத்தைச் சேர்ந்த கணினி அறிஞர் ஜோசப் வெய்சன்பாம் (Joseph Weizenbaum) தான் எலிசா மென்பொருளை உருவாக்கினார்.

 

தற்கால செயற்கை நுண்ணறிவு உரையாடிகள்

          தற்காலத்தில் வணிகம், மருத்துவம், தொலைத்தொடர்பு, அரசு சேவை எனப் பல நிலைகளிலும் செயற்கை நுண்ணறிவு உரையாடிகள் பயன்படுகின்றன. இவை வழக்கமான கேள்விகளைத் தொகுத்து அக்கேள்விகளுக்கான பொதுவான பதில்களை வழங்கும் நிலையில் வடிவமைக்கப்பட்டுள்ளன. இவற்றுள்சாட் ஜி.பி.டி3 தனித்துவமுடையதாகவும் பலரின் கவனத்தையும் கவர்வதாகவும் திகழ்ந்தமையால்கூகுள் பார்ட்4, அதற்கு இணையாக வடிவமைக்கப்பட்டு மக்களின் பயன்பாட்டுக்கு வந்துள்ளது. மேலும் ஆய்வுநிலையில் உள்ள செயற்கை நுண்ணறிவுத் தமிழ் உரையாடிகளாக, பிழையின்றி எழுதவாணி உரையாடி5, விக்கி தரவுடன் உரையாடசாட்விக்கி6, எலிசா என்ற ஆங்கில வழிநிரலின் அடிப்படையில் உருவாக்கப்பட்டஆயிதழ் அவினி7, குறள்போட்8, ‘அன்னை பூபதி9. ஆகிய உரையாடிகளைக் குறிப்பிடலாம். தமிழ் உரையாடிகளுக்கு முன்னோடியாக, உத்தமம் 2003 மாநாட்டில் தமிழில்பூங்குழலி10 அரட்டை இயலி அறிமுகப்படுத்தப்பட்டது. தற்கால செயற்கை நுண்ணறிவு உரையாடிகளை கணினியில் மட்டுமின்றி திறன்பேசிகளிலும் பயன்படுத்த இயலும். மேலும் குரல் வழி உரையாடவும், பதில்களைக் குரல் வடிவில் பெறவும் முடியும். ஒருவருக்கு அதிகாரப்பூர்வமான மின்னஞ்சல் எழுதுவது தொடங்கி, கோடிங் எழுதுவது, கல்வி நிறுவனங்களில் கொடுக்கப்படும் பணிகளை செய்து முடிப்பது வரை இன்று பலராலும் இவை பயன்படுத்தப்படுகின்றன.

 

சாட் ஜி.பி.டியில் தமிழ்

OpenAI ஆல் உருவாக்கப்பட்ட ஒரு பெரிய மொழி மாதிரி அடிப்படையிலான சாட்போட் ஆகும், இது நவம்பர் 30, 2022 அன்று தொடங்கப்பட்டது. இதன் சில வசதிகள் இலவசமாகவும், கூடுதல் வசதிகள் கட்டணத்துடன் கிடைக்கின்றன. இதன் இலவச வசதியில் GPT-3.5 மாதிரிக்கான அணுகல், நிலையான பதில் வேகம் வழக்கமான மாதிரிப் புதுப்பிப்புகள் ஆகியன கிடைக்கின்றன. கட்டண வசதியில், 20 டாலர் செலுத்திக் கூடுதல் வசதிகளைப் பெறமுடியும். இதில் GPT-4 க்கான அணுகல்திறமையான மாதிரி, வேகமான பதில் வேகம், செருகுநிரல்கள் மற்றும் மேம்பட்ட தரவு பகுப்பாய்வு போன்ற அம்சங்களுக்கான சிறப்பு அணுகல் கிடைக்கின்றன. சாட் ஜி.பி.டியில் ஆங்கிலத்துடன் ஒப்பிடும்போது தமிழ் மொழியின் துல்லியத்தன்மை குறைவாகவே உள்ளது.

 

கூகுள் பார்ட்

          கூகுள்  வழங்கும் செயற்கை நுண்ணறிவு உரையாடல் கருவியான பார்ட், சிந்தனைகளைக் கூர்மையாக்கவும், படைப்பாற்றலைத் தூண்டவும், உற்பத்தித் திறனை விரைவுடுத்தவும் உதவுவதாக இக்கருவி அறிமுகப்படுத்தப்படுகிறது. இது OpenAI இன் ChatGPTயின் போட்டியாக உருவாக்கப்பட்டதுபிப்ரவரி 6, 2023 அன்று, கூகுள் பார்டை அறிவித்தது. இதற்கு உரை மற்றும் குறியீட்டின் ஒரு பெரிய தரவுத்தளத்தில் பயிற்சி அளிக்கப்படுகிறது, மேலும் இதன்வழியாக கவிதைகள், கதை, வரலாறுநிரலாக்கம், வடிவமைப்பு , மொழிபெயர்ப்பு, கடிதங்கள் போன்ற பல்வேறு படைப்பின் உரை வடிவங்களை உருவாக்கலாம். படங்களை உள்ளிட்டு எழுத்துணரியாக்கம் செய்யும் நுட்பம் ஆய்வு நிலையில் உள்ளது.

 

சாட் ஜி.பி.டி & கூகுள் பார்ட் ஒப்பீடு

கணினி மொழிகள்தரவுகளைத் தொகுத்தல், தரவுப் பகுப்பாய்வு, ஆய்வு மற்றும் மதிப்பீடு, துல்லியமான பதில்களை வழங்குதல் ஆகிய நிலைகளில் இரண்டும் வேறுபடுகின்றன.

பல கட்டுரைகள் அல்லது உரையாடல்கள் ஜி.பி.டிக்கு வழங்கப்படுகிறது. அவற்றைப் பயன்படுத்தி, மொழியின் கட்டமைப்புகளையும், வடிவங்களையும் இலக்கண மரபுகளையும் ஜி.பி.டி புரிந்துகொள்கிறது. போதுமான அளவுக்கு மொழியை உணர்ந்து கொண்ட பிறகு, கேட்கும் கேள்விகளுக்கு ஏற்ப ஜி.பி.டி சொந்தமாக தன் சொல் வங்கியில் இருந்து சொற்களைப் பயன்படுத்தி பதிலளிக்கத் தொடங்கும். சாட்ஜி.பி.டி தொழில்நுட்பம், டிரான்ஸ்ஃபார்மர் என்கிற அல்காரிதத்தைப் பயன்படுத்தி வருகிறது. இந்த அல்காரிதம் நியூரல் நெட்வொர்க்கிங் அடிப்படையில் இயங்குகிறது. இது ஒரு வகையான கணினி நிரலாக்கம் தான் என்றாலும், அது மனித மூளை வேலை செய்வதை ஒட்டி வடிவமைக்கப்பட்டது என்பது குறிப்பிடத்தக்கது. இந்த அல்காரிதத்தால் தரவுகள், வரி வடிவங்கள் போன்றவைகளை பகுத்தாய்ந்து புரிந்து கொள்ள முடியும். அதைப் பயன்படுத்தி மனிதர்கள் பேசுவதைப் போன்ற உரையாடல்களை சாட் ஜி.பி.டி உருவாக்கும்சாட் ஜி.பி.டி தொழில் நுட்பத்திற்கு 2021 ஆம் ஆண்டு வரையான தரவுகள் மட்டுமே உள்ளீடாக கொடுக்கப்பட்டிருக்கிறது. எனவே புதிய விவரங்களை சாட் ஜி.பி.டி தர இயலாது.

கூகுள் பார்ட், LaMDA (Language Model for Dialogue Applications) என்கிற தொழில்நுட்பத்தைப் பயன்படுத்துகிறது. இணையத்தில் உள்ள எல்லா விவரங்களையும் பயன்படுத்தி பயனர்கள் கேட்கும் கேள்விகளுக்கு அந்த நொடி வரையான விவரங்களை ஆராய்ந்து பதில் அளிக்கும். தேடுபொறிக்கும் மெய்நிகர் உதவியாளருக்கும் (Virtual assistant) இடையிலான கலவையாக கூகுள் பார்ட் செயல்படுகிறது. கூகுள் பார்ட் பயன்பாட்டுக்கு வரும் முன்பே கூகுள் உதவியாளர் (Google Assistant) இந்த வசதிகளை வழங்கியதை நாம் அறிவோம். சாட் ஜி.பி.டி கூடுதல் வசதிகளை கட்டணத்துடன் வழங்கினாலும் கூகுள் பார்ட்முழுவதும் இலவசமாகவே வழங்குவது குறிப்பிடத்தக்கது.

தமிழ் மொழிப் பயன்பாட்டு நிலையில் சாட் ஜி.பி.டியுடன் கூகுள் பார்ட் உரையாடியை ஒப்பிடும்போது கூகுள் பார்ட் சிறப்பாக செயல்படுகிறது. சில நேரங்களில் தாம் வழங்கும் பதில்களுக்கான சான்றுகளையும் இவை வழங்குகின்றன. என்றாலும் செயற்கை நுண்ணறிவு உரையாடிகளின் பதில்களை முழுவதும் ஏற்க முடியவில்லை. இவற்றை தொடர்ந்து பயன்படுத்துவதன் வழியாகவே இவற்றை மேலும் மேம்படுத்தவும் துல்லியமான பதில்களைப் பெறவும் முடியும்.

 

மின் உள்ளடக்க உருவாக்கத்தில் செ.நு.உரையாடிகள்

சாட் ஜி.பி.டியை விட கூகுள் பார்ட், பெரிய மற்றும் சிக்கலான தரவுத்தளத்தில் பயிற்சி பெற்றுள்ளது. அதனால் கூகுள் பார்ட் வழியாகப் பல்வேறு தமிழ் மின் உள்ளடக்கங்களை ( Tamil e-contents ) உருவாக்கமுடியும்.

1.  வலைப்பதிவுகளுக்கான உள்ளடக்கங்களை உருவாக்கலாம்

2.  மின்னூல்களுக்கான உள்ளடக்கங்களை உருவாக்கலாம்

3. வலையொளிக்கான (யூடியூப்) கேள்வி பதில்களை உருவாக்கி கணினித்

    திரையைப் பதிவு செய்து காணொலியாகப் பதிவேற்றலாம்

4. கோரா தளத்துக்கான கேள்விகளை உருவாக்கலாம், பதில்களைப் பெறலாம்.

5. ஒலி நூல்களை உருவாக்கலாம்.

இத்தகைய செயற்கை நுண்ணறிவுக் கருவிகள் வழியாக மின் உள்ளடக்கங்களை உருவாக்குவது எளிது என்றாலும் அதன் நம்பகத்தன்மை, துல்லியத்தன்மை என்பது ஆய்வுக்குரியது என்பதைப் பயன்படுத்துவோர் நினைவில் கொள்ளவேண்டும்.

நிறைவுரை

·       செயற்கை நுண்ணறிவு வளர்ச்சியில் சாட்பாட் என அழைக்கப்படும் உரையாடிகள் குறிப்பிடத்தக்கன.

·       சாட் ஜி.பி.டி, கூகுள் பார்ட் போன்ற உரையாடிகளுக்கு முன்னோடியாக எலிசா உரையாடி அறியப்படுகிறது.

·       செயற்கை நுண்ணறிவு உரையாடிகளை கணினி மட்டுமின்றி திறன்பேசிகளிலும் பயன்படுத்தமுடியும்.

·       பூங்குழலி உரையாடியானது தமிழ் உரையாடிகளுக்கு முன்னோடியாகத் திகழ்கிறது.

·       வாணி, சாட் விக்கி, ஆயிதழ் அவினி, குறள்போட், அன்னை பூபதி எனப் பல உரையாடிகள் ஆய்வு நிலையில் உள்ளன.

·       தமிழ் மொழிப் பயன்பாட்டு நிலையில் சாட் ஜி.பி.டியுடன் கூகுள் பார்ட் உரையாடியை ஒப்பிடும்போது கூகுள் பார்ட் சிறப்பாக செயல்படுகிறது.

·       செயற்கை நுண்ணறிவு உரையாடிகளின் பதில்கள்கள் நம்பகத்தன்மை ஆய்வுக்குரியதாகவே உள்ளது.

·       வலைப்பதிவுகள், மின்னூல்கள், வலையொளி, கோரா, ஒலி நூல் என தமிழ் மின் உள்ளடக்கங்களை உருவாக்குவதில் கூகுள் பார்ட் நன்கு பயன்படுகிறது.

·       தமிழ் மொழியைப் பயன்படுத்தும் நிலையில், சாட் ஜி.பி.டி மற்றும் கூகுள் பார்ட் இடையே பல்வேறு நிறை குறைகள் இருந்தாலும் மீண்டும் மீண்டும் பயன்படுத்தும்போதுதான் செயற்கை உரையாடிகளின் நம்பகத்தன்மை, துல்லியத்தன்மை ஆகியன மேம்படுத்தப்படும் என்பதை நாம் உணரவேண்டும்.

·       எளிய உரையாடிகளை பைத்தான் போன்ற கணினி மொழிகளில் யாவரும் உருவாக்கிவிடலாம் என்றாலும் சாட் ஜி.பி.டி, கூகுள் பார்ட் போன்ற சிறந்த உரையாடிகளை உருவாக்குவதில் பல வகைகளில், வடிவங்களில் பெரிய தரவுகள் தேவைப்படுகின்றன. அதனால் இணையத்தில் தமிழ்த் தரவுகளை மேம்படுத்துவது நம் கடமையாகிறது.

சான்றெண் விளக்கம்.

1. https://en.wikipedia.org/wiki/ELIZA

2.https://yourstory.com/tamil/chat-gpt-series-and-eliza-chatbot-history-explained

3. https://openai.com/blog/chatgpt

4. https://bard.google.com/

5. https://vaanieditor.com/chatbot  

6. https://apps.neechalkaran.com/chatbot

7. http://avini.tamilnlp.com/

8. https://www.kuralbot.org/

9. https://ordbok.annai.no/ 

10. https://www.infitt.org/ti2003/papers/14_kalaiya.pdf

1 கருத்து: