பாத் நிர்வாணா சிங்கள டி.டி.எஸ் தரவுத்தொகுப்பு
உரையிலிருந்து பேச்சு வழிமுறைப் பயிற்சிக்கான உயர் தரமான சிங்களத் தரவுத்தொகுப்பு – ஆழ்ந்த கற்றல் வழிமுறைகளுக்கென (deep learning algorithms) சிறப்பாக வடிவமைக்கப்பட்டுள்ளது.
ஆழ்ந்த கற்றல் வழிமுறைகளைப் பயன்படுத்தி புதிய சிங்கள டி.டி.எஸ் குரல்களை உருவாக்கப் பயன்படுத்தக்கூடிய புதிய தரவுத்தொகுப்பு இப்போது கீழே கிடைக்கிறது:
https://github.com/pathnirvana/sinhala-tts-dataset
மொழி தொழினுட்ப ஆராய்ச்சி ஆய்வுகூடம் – யு.சி.எஸ்.சி. (UCSC)
மொழி ஆராய்ச்சிக்கு 10-மில்லியன்-சொல் சமகால சிங்கள உரை விரிதரவு
யு.சி.எஸ்.சி மினி விரிதரவில்(UCSC mini corpus) சிங்கள செய்தித்தாள் கட்டுரைகளிலிருந்து சேகரிக்கப்பட்ட 10 மில்லியன் சிங்களச் சொற்கள் உள்ளன. விரிதரவில் சுமார் 135,000 தனித்துவமான சொற்கள் உள்ளன, மேலும் இது தலையங்கங்கள், அம்சக் கட்டுரைகள், வெளிநாட்டுச் செய்திகள் மற்றும் விளையாட்டுச் செய்திகளைக் கொண்ட 2794 உரைக் கோப்புகளைக் கொண்டுள்ளது.
100K சொல் ஆங்கிலம், சிங்கள இணை விரிதரவு
ஆங்கிலம்-சிங்களம் கணினி மொழிபெயர்ப்பில் ஈடுபட்டுள்ள மொழி ஆராய்ச்சியாளர்களுக்கான ஆங்கிலம்-சிங்களம் இணை விரிதரவு. விரிதரவில் 4,301 ஆங்கில வாக்கியங்களும் அதனுடன் தொடர்புடைய சிங்கள மொழிபெயர்ப்புகளும் உள்ளன.
To download
500k சிங்கள குறியிடப்பட்ட விரிதரவு
யு.சி.எஸ்.சி குறியிடப்பட்ட விரிதரவில் (UCSC tagged corpus) 500K சொற்கள் உள்ளன, யு.சி.எஸ்.சி சிங்கள பிஓஎஸ் டேக்செட் (பதிப்பு 1) இனனப் பயன்படுத்தி சிங்கள மொழியியலாளர்களால் கைமுறையாகக் குறியிடப்பட்டது.
To download
மொழி தொழினுட்ப முன்னேற்றத்திற்காக 1300 சொல் சிங்கள வேர்ட்நெட்
யு.சி.எஸ்.சி சிங்கள வேர்ட்நெட் (பதிப்பு 1) 1,075 சொல் அர்த்தங்களைக் கொண்டுள்ளது, மேலும் ஒவ்வொரு அர்த்தத்திலும் தொடர்புடைய ஆங்கில வார்த்தையுடன் சின்செட்டுகள் (synsets) அடங்கும், சின்செட்டுக்கான(synset) பிரின்ஸ்டன் ஐடி, பிஓஎஸ்(POS) வகை மற்றும் பொருள் விளக்கச் சொல் ஆகியவையும் அடங்கும்.
To download
யு.சி.எஸ்.சி சிங்கள பிஓஎஸ் டேக்செட்
சிங்களத்திற்கான பேச்சு டேக்செட்டின் ஒரு பகுதி (பதிப்பு 1). நிறுத்தற்குறிகள் உட்பட 28 வெவ்வேறு சொல் வகுப்புக் குறிச்சொற்கள் உள்ளன. ஒரு குறிப்பிட்ட குறியீட்டுக்கு ஒரு நிறுத்தற் குறியீடு ஒரு தனிக் குறியமாகக் கருதப்படுகிறது.
To download
மொழி ஆராய்ச்சிக்கான சரியான பெயர்களின் பட்டியல்
நாட்டின் பெயர்கள், சிங்கள தனிப்பட்ட பெயர்கள், இலங்கை மற்றும் சர்வதேச நகரங்களின் பெயர்கள், சிங்களக் கலைஞர்களின் பெயர்கள், இலங்கையிலுள்ள ஆறுகள் மற்றும் நீர்த்தேக்கங்கள் உள்ளிட்ட சிங்கள முறையான பெயர்களின் பட்டியல். தற்போது சுமார் 20,800 முறையான பெயர் உள்ளீடுகள் உள்ளன.
To download
NamedEntity குறியிடப்பட்ட விரிதரவு
சிங்களப் பெயரிடப்பட்ட உள்பொருள் குறிக்கப்பட்ட விரிதரவு சுமார் 83K சொற்களைக் கொண்டுள்ளது, அவை நபர்களின் பெயர்கள், இடங்களின் பெயர்கள் மற்றும் நிறுவனப் பெயர்களுக்கு பெயரிடப்பட்ட உள்பொருள் எனக் குறிக்கப்பட்டுள்ளன.
To download
சிங்கள செயற்பாட்டுச் சொற்களின் பட்டியல்
சிங்கள இணைப்பிடைச் சொற்கள், வரையறுப்பான்கள், வியப்பிடைச் சொற்கள், இடைச் சொற்கள் மற்றும் பின்னிலைகளைக் கொண்ட 425 சிங்கள செயல்பாட்டுச் சொற்களின் ஒரு பட்டியல்.
இங்கியா ஆங்கிலம்-சிங்களம் அகராதி தரவுத்தளம்
இங்கியா ஆங்கிலம்-சிங்களம் அகராதி தரவுத்தளம் என்பது துணை நிரலில்(add-on) பயன்படுத்தப்படும் ஆங்கிலம்-சிங்களம் அகராதி ஆகும். இந்தத் தரவுத்தளத்தில் அண்ணளவாக 36,000 ஆங்கிலச் சொல் உள்ளீடுகளும் அதனுடன் தொடர்புடைய சிங்கள அர்த்தங்களும் உள்ளன.
400K தனித்துவ சொல் பட்டியல்யு.சி.எஸ்.சி சிங்கள உரை விரிதரவிலிருந்து பிரித்தெடுக்கப்பட்ட 400K தனித்துவமான சொற்களின் பட்டியல்.
சிங்கள பேச்சு செயலாக்கத்திற்கான பேச்சு விரிதரவுகள் (Speech corpora)
பெண் குரல் விரிதரவு
பேச்சு விரிதரவு (Speech corpus) என்பது ஒரு பெண் பேச்சாளர் பேசும் 3000 சிங்களச் சொற்களைக் கொண்டது. இந்த விரிதரவு ஆரம்பத்தில் சிங்கள மொழிக்கான தானியங்கி பேச்சு அறிதல் முறைமையை (ஏ.எஸ்.ஆர்) உருவாக்க வடிவமைக்கப்பட்டது. சிங்கள மொழியில் அடிக்கடி பயன்படுத்தப்படும் சொற்களைக் கருத்திற் கொண்டு பேசும் சொற்கள் தேர்ந்தெடுக்கப்பட்டன.
ஆண் குரல் விரிதரவு
பேச்சு விரிதரவு (Speech corpus) என்பது ஒரு ஆண் பேச்சாளர் பேசும் 625 சிங்களச் சொற்களைக் கொண்டது. இந்த விரிதரவு ஆரம்பத்தில் சிங்கள மொழியிற்கான ஒரு உரை இலிருந்து பேச்சு முறைமையை (டி.டி.எஸ்) உருவாக்க வடிவமைக்கப்பட்டது.
பேச்சு விரிதரவு (Speech corpus) என்பது வெவ்வேறு வயதினரில் ஆண் மற்றும் பெண் இருவரையும் பிரதிநிதித்துவப்படுத்தும் பல்வேறு பேச்சாளர்கள் பேசும் 74,000 சிங்கள சொற்களைக் கொண்டதாகும். இந்த விரிதரவு ஆரம்பத்தில் கையடக்கத் தொலைபேசிகளில் பாடல் கோரிக்கை செயலியினை உருவாக்க வடிவமைக்கப்பட்டது.
சிங்கள செய்திகள் விரிதரவு
ஒரு பேச்சு விரிதரவு (A speech corpus) என்பது ஆண் மற்றும் பெண் அறிவிப்பாளர்களிடமிருந்து பதிவு செய்யப்பட்ட சிங்கள செய்திகளின் 8000 சொற்களைக் கொண்டதாகும். இது தற்போது நடைமுறையிலிருக்கும் செயற்திட்டமாகும்.
To download