Новый спеллчекер казахского языка by TLemur

Автор sotrud_nik, 24 Января 2014, 14:22

« предыдущая тема - следующая тема »

0 Пользователей и 1 Гость просматривают эту тему.

sotrud_nik

24 Января 2014, 14:22 Последнее редактирование: 26 Февраля 2014, 15:56 от sotrud_nik
Всем привет!

Для тренировки словарика hunspell-kk разыскиваются как можно больше казахских слов. А именно: тексты, желательно без вкраплений
могучего и великого и другой кириллицы (ибо латиницу отсеять я сумею).
Пока что я нашел два источника - это дампы казахской части википедии и законы/кодексы, т.е. все находящееся
в свободном доступе. С википедии вылазит ужасное месиво на выходе. А в самом словаре hunspell-kk
встречается и некоторое количество мусора.

По одному слова присылать не надо) Давайте тексты которые можно парсить.
1) Библиотека http://kaztube.kz/kz/books
2) http://ikitap.kz

sotrud_nik

В общем, TLemur пилит спеллчекер с нуля. Ожидайте результаты. В этом году.

hedgeven

Jah will give us everything...

sotrud_nik

Цитата: hedgeven от 26 Февраля 2014, 17:43
Скоро на экранах ваших линуксов.


А также в продуктах Firefox, LibreOffice для платформ Windows, MacOS и наверное еще много где.

В общем, это словарь hunspell.

hedgeven

ого, круто. я как-то упустил из виду, что он кросплатформенный.
Jah will give us everything...