Resources for Tamil Computing
தமிழில் உள்ள பொதுவெளித் தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருட்கள்
NLP (இயல்மொழி ஆய்வுக்கான நிரல் திரட்டு)
- open-tamil – பைத்தான் – https://github.com/Ezhil-Language-Foundation/open-tamil
- TamilNLP – பைத்தான் – https://github.com/AshokR/TamilNLP
- PyTamil – https://github.com/srix/pytamil
- ஆமுதா -பைத்தான்- https://github.com/TamilClass/amuthaa
- தமிழ் parsing -Java- https://github.com/drajamanik/tamil
- தமிழ் parsing -Java- https://github.com/velsubra/Tamil
- Corpus creation tools – Ruby – https://github.com/mindaslab/tamil_corpus
Corpus, Dictionaries – சொல்வங்கி,
- Noun list from Kaniyam – https://github.com/KaniyamFoundation/all_tamil_nouns Word list from Kaniyam – https://github.com/KaniyamFoundation/all_tamil_words
- Tirukkural – https://github.com/tshrinivasan/libkural
- Neechalkaran Tamil Corpus – https://github.com/neechalkaran/Tamil-corpus
- TamilNLP – https://github.com/AshokR/TamilNLP/tree/master/Resources
- Open-Tamil data sets – https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
- Tamil VU dictionary – 65000+ words – https://github.com/rprabhu/TamilDictionary
- Palaniappa Bros. Dictionary – https://github.com/indic-dict/stardict-tamil
- Nigandiyam – Wiktionary – https://ta.wikisource.org/wiki/%E0%AE%B5%E0%AE%BF%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AE%E0%AF%82%E0%AE%B2%E0%AE%AE%E0%AF%8D:%E0%AE%A8%E0%AE%BF%E0%AE%95%E0%AE%A3%E0%AF%8D%E0%AE%9F%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%8D_%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F%E0%AE%AE%E0%AF%8D
- தமிழ்ப்புலவர் https://github.com/ramasamy-duraipandy/tamil-pulavar
Private Corpora – தனியார் சொல்வங்கி
- Sketch Engine 2.6 கோடி சொற்கள் கொண்ட சொல்வங்கி https://www.sketchengine.eu/tawac-tamil-corpus/
- AU-KBC Chennai – Tamil research databases – http://www.au-kbc.org/nlp/lex_re.html, http://www.au-kbc.org/nlp/corpusrelease.html
- CRE-A இராகவ ஐய்யங்கார் வினைசொற்கள் / வினையடி – https://www.crea.in/verb-table
- EMILLE-CIIL இந்தியமொழிகளுக்கான சொல்வங்கியில் தமிழுக்கு மட்டும் 1கோடி சொற்கள் உள்ளன. http://catalog.elra.info/en-us/repository/browse/ELRA-W0037/
AI/ML Datasets – ஆழக்கற்றல் முறை பயிற்சிக்கு பயன்படும் உரை/பட/ஒலி தரவுகள்
- Tamil New Corpus – 6500 articles – https://www.kaggle.com/disisbig/tamil-news-dataset
- Tamil Vowels Images – MNIST Compatible – https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
- Tamil Loan Word Text dataset – https://www.kaggle.com/muthua/tamil-loan-words-classification
- Tamil Wikipedia Corpus – https://www.kaggle.com/disisbig/tamil-wikipedia-articles
- Mozilla Voice – தமிழில் ஒலி->உரை மாற்றி – https://voice.mozilla.org/ta
- IARPA Babel Tamil Language Open KWS Dataset – 200hrs of voiced conversations + transcripts – https://catalog.ldc.upenn.edu/LDC2017S13
AI Models
- Ponniyin Selvan novel – text prediction – https://github.com/malaikannan/PonniyinSelvan_Nextchapter
- Tamil Vowels Images classification – MNIST Compatible – https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
Wiktionary, Wikipedia – விக்கிபீடியாவை ஆய்வுசெய்ய உத்திகள்
- Korkai Corpus builder – Go – https://github.com/psankar/korkai
- Tamil Wiktionary parser – Python/Qt – https://github.com/thamizha/tawiktionary-offline/
- Tamil Wiktionary parser – https://github.com/sathia27/e2t-dictionary/
Madurai – மதுரைத்திட்டம் ஆய்வுசெய்ய உத்திகள்
- “மின் மதுரை” செயலி – https://github.com/Ezhil-Language-Foundation/MinMadurai
Spell Checker – சொல்திருத்தி
- Language Tool – https://github.com/languagetool-org/languagetool
- Affix file/dictionary for Tamil for Hunspell – https://github.com/thamizha/thamizha-solthiruthi
- GNU Aspell dictionary for Tamil – https://ftp.gnu.org/gnu/aspell/dict/0index.html
- Solthiruthi @ Open-Tamil
Sandhi Checker – சந்திப்பிழைதிருத்தி
- 40-சந்தி விதிகளை தமிழ் உரையில் திருத்தம் செய்ய -பைத்தான்- https://github.com/nithyadurai87/tamil-sandhi-checker
Stemmer – வேர்ச்சொல் பகுப்பாய்வு
- Primary Tamil Stemmer – https://github.com/rdamodharan/tamil-stemmer
- pystemmer/Snowball – தமிழுக்கும் தழுவப்பட்டது – https://github.com/snowballstem/pystemmer
- [1] இதன் சாரம் Open-Tamil-இலும் காணலாம்.
Parallel-Dictionaries – ஆங்கில–தமிழ் இணையான அகராதிகள்
- Open-Tamil 40,000 words English-Tamil – https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
- English -> Tamil – https://github.com/sathia27/dictionary
Tamil Word Net – தமிழ் சொல்பின்னல்
- AU-KBC, Tamil University Thanjavur -Java- http://www.au-kbc.org/nlp/TamilWordnet.tgz
- IIT-Bombay/CIFLT, TDIL Indic/Tamil Wordnet – https://tdil-dc.in/indowordnet/
Morphological Analysis – சொல்வடிவ பகுப்பாய்வு
- FST/Tamizhi-Morph – – https://github.com/sarves/thamizhi-morph
- ML Morph – மலயாளம் சொல்வடிவ பகுப்பாய்வு – https://github.com/smc/mlmorph
- Polyglot – பைத்தான் – https://github.com/aboSamoor/polyglot
Dependency parser
- UDD – https://github.com/UniversalDependencies/UD_Tamil-TTB
- அவலோகிதம் – Venba parser – https://github.com/virtualvinodh/avalokitam
POS – இடம்சூட்டுபெயர் பகுப்பாய்வு செயலிகள்
- RDRPOSTagger – R – https://github.com/datquocnguyen/RDRPOSTagger
- RippleTagger – பைத்தான் – https://github.com/EmilStenstrom/rippletagger
- TamilNLP – பைத்தான் – https://github.com/AshokR/TamilNLP
Cloud Computing
- Bringup Tamil friendly Unix OS – https://github.com/Ezhil-Language-Foundation/padai
Keyboard Manager
- eKalappai – C++ – https://github.com/thamizha/ekalappai
Proprietary Keyboard Manager
- Murasu Anjal – http://anjal.net/murasu-anjal-muthal-edition/
- NHM Writer – https://indiclabs.in/products/writer/
Fonts (எழுத்துருக்கள்)
- Open-Source Tamil Fonts – https://github.com/thamizha/tamil-fonts
- Meera Tamil – https://github.com/santhoshtr/meera-tamil
- Catamaran Tamil – https://github.com/VanillaandCream/Catamaran-Tamil
- Amma – https://github.com/mooniak/amma-font
- நீச்சல்காரன் தமிழ் எழுத்துருக்கள் – http://oss.neechalkaran.com/tamilfonts/
- இராமசாமி துரைப்பாண்டி அவரது தமிழ் எழுத்துருக்கள் – https://github.com/ramasamy-duraipandy/tamil-unicode-fonts
- பேரா. இல. சுந்தரம் தமிழ் எழுத்துருக்கள் – கணியம் வழி – http://www.kaniyam.com/ila-sundaram-unicode-tamil-fonts/ http://www.kaniyam.com/download/ila-sundaram-unicode-tamil-fonts.zip
Encoding (எழுத்துரு மாற்றி)
- txt2ipa – பைத்தான் – https://github.com/arulalant/txt2ipa
- txt2unicode – பைத்தான் – https://github.com/arulalant/txt2unicode
Blogs/Tutorials – அறிமுக கட்டுரைகள்
- https://kaniyam.com
- https://nivedithakarmegam.wordpress.com/2019/03/31/text-preprocessing-tools-for-tamil-language/
- https://ezhillang.blog/category/tamil-nlp/
- https://goinggnu.wordpress.com
- https://indicnlp.org
OCR
- PDF2Text using Google OCR – https://github.com/KaniyamFoundation/Pdf2Text
- Tesseract for Tamil GUI – https://github.com/Parathantl/tesseract_gui
- Tesseract based OCR API – https://github.com/neechalkaran/OCR
TTS
- Concatennative Synthesis on Diphones – https://github.com/sunnyglow/ThamizhPesi
- Concatennative Synthesis on Syllables – https://github.com/vasurenganathan/tamil-tts
- Dhvani – https://github.com/tshrinivasan/dhvani-tts
ASR
- Mozilla Voice – தமிழில் ஒலி->உரை மாற்றி – https://voice.mozilla.org/ta
Programming Languages – தமிழில் கணினி மொழிகள்
- Ezhil – http://github.com/Ezhil-Language-Foundation/ezhil-lang
- CLJ-Thamil – https://github.com/echeran/clj-thamil
இதர
- தமிழ் பா தேடல் – search on poetry- https://github.com/seekshiva/tamil-paa-thedal
- தமிழில் உள்ள எண்கள் எண்குறியீடுகள் பற்றிய – https://github.com/julienmalard/ennikkai/
பட்டியல்கள்
- த.இ.க மென்பொருள் பட்டியல் http://www.tamilvu.org/coresite/html/cwsoftlist.htm
- கணியம் – https://github.com/KaniyamFoundation/awesome-tamil-nlp
- கொர்க்கை சங்கர் – https://github.com/psankar/TamilFOSS
- தங்கமணி அருண் – https://github.com/thangamani-arun/Tamil-NLP-Resources
- நீச்சல்காரன் http://oss.neechalkaran.com/tamilsoftwares
- பழந்தமிழ் இலக்கியங்களில் தேட http://sangam.tamilnlp.com/mp/json/