Pages

Friday, January 07, 2011

யுனிக்கோடு: கிரந்தக் கலப்பின் பல்வேறு பக்கங்கள் - வினா-விடை - பகுதி 1

தமிழ் உலகில் குறிப்பாகக் கடந்த 3 மாதங்களாக
நிலவுகின்ற, “தமிழ்-ஒருங்குறியில் கிரந்தக் கலப்பு”
பற்றிய விதயங்களை, பல் துறை சார்ந்தோர்க்கும்
அறியத்தரும் வண்ணம் இந்த ஆவணத்தை அமைக்க
முயன்றிருக்கிறேன். இது அடிக்கடி ஊடாடும்
வினாக்கள் (FAQ) முறையையும் கட்டுரை
விளக்க முறையையும் உள்ளடக்கியதாக அமைகிறது.
ஒருங்குறி அடிப்படைகள், அதன் கட்டமைப்பு,
கிரந்த நுழைப்பு முன்மொழிவுகள், கடந்த 3 மாதங்களில்
நிகழ்ந்தவை பற்றிய குறிப்புகள், தற்போது நிலவுகின்ற
குழப்பங்கள் ஆகியவற்றை விளக்குவதாகவும்,
தமிழ்ப் பற்றாளரும் தமிழக அரசும் மேற்கொள்ள
வேண்டிய பணிகளைப் பற்றிய பார்வை
காட்டுவதாகவும் இது அமைகிறது.

தொகுதி-1: ஒருங்குறி - அறிமுகம்

1) யுனிக்கோடு என்றால் என்ன?

கணியிற் பல்வேறு மொழி எழுத்துக்களை இப்பொழுது
எழுதவும், படிக்கவும் முடிகிறது. ஆனால் ஒருகாலத்தில்
உலகம் முழுவதிலும், ஆங்கிலத்தைத் தவிர,
பலமொழிகளின் எழுத்துக்களை எழுதுவதிலும்,
படிப்பதிலும் சிக்கல்கள் இருந்தன. தவிர ஒவ்வொரு
மொழியெழுத்துக்குள்ளும் பல்வேறு எழுத்துத்
தரப்பாடுகள் இருந்தன. தமிழிலும் ஒருகாலத்தில்
கணியில் எழுதப் படிக்கப் பல்வேறு எழுத்துத்
தரப்பாடுகள் புழங்கிக் கொண்டிருந்தன.

ஒவ்வொருவரும் தங்களுக்குப் பிடித்த எழுத்துத்
தரப்பாட்டில் தமது இணையத் தளங்களையும்,
செய்தி ஏடுகள், மாத வார இதழ்களையும்
வெளியிட்டனர்.

ஒவ்வொரு இதழையும் இனையத்தளத்தையும்
படிக்க வேண்டுமானால் ஒவ்வொன்றுக்கும்
உரிய எழுத்துத் தரப்பாட்டையும்
எழுத்துருவையும் கணியில் இருத்த
வேண்டிய கட்டாயம் இருந்தது.

இல்லாவிட்டால் அவற்றைப் படிக்கவோ,
அச்சிடவோ, பறிமாறிக்கொள்ளவோ
முடியாதிருந்தது.அதனால் தமிழ்ப் படைப்புகள்
கணியிலும் இணையத்திலும் பல்லாயிரக்
கணக்கில் இருந்தாலும் அவை தனித் தனித்
திடல்களாகக் கிடந்ததால் அவற்றைப்
புழங்கும் பயனர்களுக்குப் பல்வேறு சிக்கல்கள்
இருந்தன. அவை மொழி வளர்ச்சிக்குத்
தடையாகவும் இருந்தன.

இதே நிலைதான் உலகில் இருக்கும் பல்வேறு
மொழிபேசும் மக்களுக்கும் இருந்தன.

ஆகவே, உலகில் உள்ள எல்லா மக்களும்
கணியில் எளிதில் புழங்க, உலகின் எல்லா
எழுத்து முறைகளையும் (Writing Systems)
உள்ளடக்கி ஒரு எழுத்துத் தரப்பாடு
(Character Encoding Standard) உருவாக்கப் பட்டது.
அதற்குப் பெயர் தான் ஒருங்குறி என்கின்ற
யுனிக்கோடு (Unicode) எழுத்துமுறையாகும்.

தமிழி எழுத்துமுறையை உள்ளடக்கிய
ஒருங்குறியின் உலகப் பயனை உணர்ந்த
தமிழ்க் கணிஞர்களும் பயனர்களும் அந்தத்
தரப்பாட்டுக்கு சிறிது சிறிதாக மாறினர்.
தமிழ்நாட்டரசும் 2010 சூன் மாதத்தில் நடந்த
செம்மொழி மாநாட்டில் ஒருங்குறிக்கு
ஏற்பளித்து அரசின் தரப்பாடாக அறிவித்தது.

2) யுனிக்கோடு அல்லது ஒருங்குறியில்
எத்தனை எழுத்து முறைகள் உள்ளன?

இதுவரை, தமிழ் உள்ளிட்ட ஏறத்தாழ
93 எழுத்து முறைகள் ஒருங்குறித்
தரப்பாட்டுக்குள் கொண்டு வரப்பட்டிருக்கின்றன.
அரபி எழுத்துமுறை, சீன முறை, ஈபுரு,
இலத்தீனம், சிரில்லிக்கு, தமிழ், தேவநாகரி,
மங்கோலியம், தெலுங்கு, வங்கம் போன்றவை
இவற்றுள் சில எடுத்துக்காட்டுகளாகும்.

3) எழுத்துரு (Font) என்றால் என்ன?

கணித்திரையிலும் அச்சிலும் நாம் காணுகின்ற
எழுத்துக்களுக்கு வடிவ ஒழுங்கைத் தருவது
எழுத்துருக் கோப்பு (Font Files) ஆகும்.
இதனைச் சுருக்கமாக எழுத்துரு என்கிறோம்.
வடிவம், அடர்த்தி, பயன்பாடு ஆகியவற்றின்
அடிப்படையில் பல நிறுவனங்களும், தனியாரும்
அவரவர் தேவைக்கேற்ப எழுத்துருக் கோப்பை
உருவாக்கிக் கொள்ளலாம். பரணர், இலதா,
கண்ணகி போன்று பல நூறு எழுத்துருக்
கோப்புகளைத் தமிழில் உருவாக்கியிருக்கிறார்கள்.

4) எழுத்துத் தரப்பாடும்(Encoding) எழுத்துருவும்(Font) வெவ்வேறா?

ஆமாம்; இரண்டும் வெவ்வேறானவை.
எழுத்துத் தரப்பாடு என்பது ஒவ்வொரு எழுத்துக்
குறிக்கும் ஒரு குறியெண்ணைக் (Code Point) கொடுத்து
அதனைக் கணியின் செயற்பாட்டிற்குள் பொருத்திய
செந்தர வரைவாகும்(Standard Definition).
இந்தக் குறி எண்கள் பதினறும எண்கள் ஆகும்.

எடுத்துக்காட்டு:

U+0B85 என்ற குறியெண் தமிழ்க்குறியான “அ” வைக் குறிக்கும்.
U+0BBE என்ற குறியெண் தமிழ்க்குறியான கால் “ா” ஐக் குறிக்கும்.
U+0BB5 என்ற குறியெண் தமிழ்க்குறியான “வ” வைக்குறிக்கும்.
U+0041 என்ற குறியெண் ஆங்கிலக்குறியான “A” யைக் குறிக்கும்.

“வா” என்ற எழுத்தைத் திரையில் காட்ட
வேண்டுமானால் U+0BB5 என்ற குறியெண்ணுடைய
“வ” குறியையும், U+0BBE என்ற குறியெண்ணுடைய
“ா” என்ற காற் குறியையும் இணைத்துக்
காட்டுவார்கள். கணிக்குள் இந்தப் பதினறும
எண்கள் இரும எண்களாக மாற்றப்பட்டுச் செயல்படும்.

ஆகவே தமிழில் உள்ள பல அடிப்படைக் குறிகள்,
உயிர்மெய்க் குறிகள், தமிழ் எண்கள் போன்றவற்றின்
வடிவங்களை எண்ணுமைப் படுத்தும் தரமே
எழுத்துத்தரப்பாடாகும். தமிழ் அகரமெய்களும்,
உயிர்களும் அங்கு அ டிப்படைக் குறிகளாக உள்ளன.
அவை அப்படியே கணித்திரையிலோ, கணியச்சியிலோ,
எழுத்தாக வெளிவரும். பிற உயிர்மெய் எழுத்துக்கள்
வெளிவர வேண்டுமானால் அடிப்படைக் குறிகளையும்
தக்க உயிர்மெய்க் குறிகளையும் அடுத்தடுத்து
ஒட்டுப்போட்டுத்தான் பெறமுடியும்.

இந்தச் செந்தரக் குறியீடுகளைப் பயன்படுத்தி
நாம் விரும்பிய வடிவழகில் எண்ணற்ற எழுத்துருக்
கோப்புகளை ஏற்படுத்திக் கொள்ளலாம்.
ஒருங்குறித் தரப்பாட்டை எல்லாக்கணிகளின்
கட்டமைப்பும் சொவ்வறைகளும் (Softwares),
நிரலிகளும் (Programs), செயலிகளும்(Applications)
உள்ளடக்கியிருக்கின்றன. அத் தரப்படிச்
செய்யப்படும் எழுத்துருக்கள் செந்தரத்தின்
பயனை அளிக்கின்றன.

(தொடரும்)

அன்புடன்
நாக.இளங்கோவன்
அமைப்பாளர்,
தமிழ் எழுத்துப் பாதுகாப்பு இயக்கம்


No comments: