Павел Можаев (mevamevo) wrote,
Павел Можаев
mevamevo

Оценка вашего словарного запаса в эсперанто // Pritaksado de via Esperanta vortprovizo

    ru:
Мои читатели, вероятно, помнят об интересном тесте, относительно быстро и легко определяющем приблизительный словарный запас тестируемого на английском языке (мой результат оказался около 6660 слов). Мне внезапно захотелось хотя бы как-нибудь, хотя бы через одно место, хотя бы весьма приблизительно определить, сколько слов я знаю на эсперанто. Методику пришлось находить и разрабатывать самому. Берём словник NPIV (взято отсюда), с помощью небольшой бейсиковской программы удаляем все производные от корней и все имена собственные, включая буквы алфавита. В результате имеем более-менее достоверный (но и большой) корпус эсперантских корней (это важно! не слов, а именно корней!), общее количество которых у меня (ну, если я нигде ничего не запорол) составило 13785. Там, разумеется, полно узкоспециализированных терминов и прочей ерунды, которая мне в жизни никогда не пригодится. Тем не менее — это наш радикарий. Дальше пишем на Бейсике ещё одну простенькую программу, которая из этой генеральной совокупности создаёт случайную выборку в 100 элементов. Почему сто? Ну, это и не мало, и не слишком много. Если нужно, изменением одного параметра можно создавать выборки любого размера, если кому интересно. Далее смотрим на эту случайную выборку и честно, не подглядывая в словарь, подсчитываем, сколько корней (повторяю, речь идёт исключительно о корнях!) нам знакомо (положим, x корней). Полагаем, что данный результат можно перенести на генеральную совокупность; таким образом общее количество корней, знаемых вами, будет равняться 13785*(x/100). Вуаля! :) За деталями и подробностями идём под кат.

    eo:
Miaj ruslingvaj legantoj verŝajne memoras pri la interesa testo, kiu facile kaj rapide pritaksas la proksimuman vortprovizon de la testato pri la angla lingvo (mia rezulto estis ĉ. 6660 vortoj). Mi subite ekdeziris almenaŭ iomete, almenaŭ tra-fike, almenaŭ proksumumege determini, kiom da vortoj de Esperanto mi konas. La metodikon mi elpensis kaj elprovis mem. Ni prenu la vort-kolekton de NPIV (ĉi tie), per eta bazika programo forigu ĉiujn derivaĵojn kaj proprajn nomojn inkluzive liter-nomojn. Rezulte ni havas pli-malpli fidindan (kaj samtempe grandan) populacion da Esperantaj radikoj (tio gravas! temas ne pri vortoj, sed pri la radikoj!), kies suma kvanto laŭ mi estas 13785 (eble mi ie iomete fuŝis, sed espereble ne). Kompreneble, tie multegas fakaj terminoj kaj cetera redundaĵo, kiu neniam utilos por mi. Tamen, tio estas ja nia radikokolekto. Poste mi skribis per Baziko plian simplan programeton, kiu kreas el tiu ĝenerala populacio samplon/muestron el 100 elementoj. Kial cent? Nu, tio estas kaj malmulte, kaj ne tro multe. Ĉebezone oni povas per ŝanĝo de unu parametro krei muestrojn de ajna grandeco, se iu interesiĝas. Poste ni rigardu al tiu muestro kaj senfraŭde, sen rigardi la vortarojn kalkulu, kiom da radikoj (mi ripetas: temas nur pri la radikoj!) ni konas (supozite x). Ni plue koncedu, ke la rezulton oni povas ĝeneraligi por la tuta populacio; tiel la entuta kvanto de la radikoj konataj al vi egalos al 13785*(x/100). Hop! :) Por pli da detaloj eniru la kaŝparton.


    ru:
Я сделал для себя три таких выборки и проверил себя трижды. Средний результат у меня вышел 67 (то есть, из 100 корней случайной выборки из всего словника NPIVа мне знакомо в среднем 67), что позволяет заключить, что я знаю порядка 13785*0,67 = 9236 корней. Повторяю: корней! Для тех, кто не знает, как работает система эсперантского словообразования, кратко поясню: в реальности данное число означает, что я владею (могу понимать/использовать) порядка 30-40 тысяч слов, если не больше (от одного корня в эсперанто можно образовать в среднем 3-5 вполне частотных слов; от отдельных корней — больше 10).

Разумеется, оценка весьма грубая. Однако, во-первых, ничего лучшего, насколько я знаю, никто пока что не придумал :). Во-вторых, статистика позволяет оценить степень точности этих данных. Если я ничего не напутал в статистических формулах, то при критерии достоверности t (Стьюдента) равном двум (что даёт уровень достоверности P=95% с хвостиком) предельная ошибка составляет ±9,4 процента. То есть, с вероятностью в 95 процентов полученное мною среднее значение (67) не должно быть меньше 57,6. Даже если пересчитать по минимуму (беря за основу эти самые 57,6), выходит, что я знаю никак не меньше 7940 корней, что даёт порядка 30 тысяч слов. Имхо, неплохо! Учитывая, что среднестатистическому человеку много больше и не требуется :). И это — неродной для меня язык, который я учил лишь в своё удовольствие!

Ниже (после эсперантского текста) я привожу собственно программку, генерирующую случайную выборку из 13785 слов (если кто не верит в мою честность), и далее — собственно одну из выборок. Подсчитайте, сколько из корней вам знакомы, разделите на сто и умножьте на 13785 — и будет вам счастье! :) Если кто запросит отдельную выборку — могу сгенерировать в комментарии специально для вас :).

    eo:
Mi faris por mi tri tiajn muestrojn kaj kontrolis min trifoje. La mezuma rezulto al mi estis 67 (t. e., el 100 radikoj de hazarda samplo el la tuta radikaro de NPIV mi konas mezume 67), kio ebligas konjekti, ke mi konas pli-malpli 13785*0,67 = 9236 radikojn. Mi ripetas: radikojn! Ĉiu, kiu pli-malpli komprenas la vortfaradan sistemon de Esperanto povas facile konkludi, ke mi ja konas proksimume 30-40 mil vortojn (eble eĉ pli).

Kompreneblas, ke tiu pritaksto estas ja kruda. Tamen, unue, nenio pli bona jam ekzistas, laŭ mia scio :). Due, la statistiko ebligas pritaksi la ĝustecon de tiuj rezultoj. Se mi nenion fuŝis pri la statistikaj formuloj, ĉe la ĝustec-kriterio t (de Student) egala al 2 (kio provizas ĝustec-probablecon P=95% kun iometo) la limesa eraro konsistigas ±9,4 elcentojn. Tio signifas, ke ekzistas 95-elcenta probableco, ke la mezuma valoro (67) ne devas esti malplia ol 57,6. Eĉ se ni kalkulu laŭ la minimumaj valoroj (prenante kiel bazon tiujn 57,6), rezultas, ke mi konas ne malpli ol 7940 radikojn, kio produktas ĉirkaŭ 30 mil vortojn. LMMO, nemalbone! Konsiderindas, ke averaĝa homo neniam bezonas multe pli :). Kaj E ja estas por mi fremda lingvo, kiun mi lernis nur por plezuro!

Sube mi prezentas la programeton, kiu generas la muestron el la 13785 vortoj (por la okazo, se iu dubas pri mia honesto), kaj plie — unu el la muestroj mem. Kalkulu, kiom da radikoj vi konas, dividu la kvanton per 100 kaj multipliku per 13785 — kaj vi estos feliĉigita! :). Se iu petos iun apartan muestron — mi facile povas prezenti ĝin en la komentoj speciale por vi :).


CLS
RANDOMIZE TIMER
OPEN "piv_5.txt" FOR OUTPUT AS #2
FOR x = 1 TO 100
   vibor% = INT(RND * 13785) + 1
   OPEN "piv.txt" FOR INPUT AS #1
   FOR y = 1 TO vibor% - 1
      LINE INPUT #1, stroka$
   NEXT
   INPUT #1, stroka$
   PRINT #2, stroka$
   CLOSE #1
   LOCATE 5, 20: PRINT x; prohod
   PRINT stroka$
NEXT
CLOSE
END

В списке используется x-конвенция // En la listo uzatas la x-konvencio
afgan/o
afidavit/o
aloster/a
alzan/o
ambasador/o
anodont/o
antipod/o
arab/o
arkean/o
auxtodidakt/o
auxtografi/o
azimen/o
bangal/o
boson/o
brahxiur/o
brusk/a
cerezin/o
citrol/o
civil/a
dalmatik/o
dugong/o
ekzakt/a
ekzistencialism/o
eperlan/o
epigon/o
fantasmagori/o
fetor/o
firm/a
furi/o
fuz/i
garnitur/o
gas/o
geosinklinal/o
gerbil/o
haleluja!
halihxer/o
heliks/o
helioterapi/o
hendiad(in)/o
hiperonim/o
hugenot/o
hxilopod/oj
idl/i
jor/o
kantar/o
ker/o
klink/o
kontur/o
kornic/o
kresk/i
kroked/o
kutr/o
kvaternar/o
langust/o
leuxkom/o
madrigal/o
miriad/o
monad/o
monografi/o
morb/o
najad/o
ne
neofit/o
oksazol/o
opozici/o
oratori/o
oriflam/o
papilion/o
pelargoni/o
penicil/o
peruk/o
polipor/o
potas/o
preterici/o
progesteron/o
proklitik/o
psalm/o
pulk/o
pure/o
resurekt/i
ronk/i
rusul/o
sangri/o
selin/o
simfoni/o
sovagx/a
splanknologi/o
steatit/o
sxelk/o
sxovinist/o
tang/i
telemetr/o
tercian/a
teta
tiam
transit/o
trombocit/o
uvul/o
verben/o
vulp/o


    ru:
Результатами, впечатлениями и критикой можно делиться в комментариях. Разумеется, методика крайне приблизительная. Отдельный прикол заключается и в том, что весьма заметное количество вполне международных слов в NPIVе представлены как составные (и, порой, весьма замысловатым образом). Например, такое общепонятное слово как hemoglobino в наши выборки попасть не могло никак, так как в NPIVе оно лишено отдельной статьи и представлено лишь в виде сложного слова в статье glob/o (hem/o/glob/in/o). Та же участь постигла, например, слово zoologio, которое (хоть и Fundamenta) в NPIVе отдельной статьи не имеет, а представлено лишь производным в статье zo/o. И т. д. и т. п. Если кто придумает и разработает более клёвую систему — я ж буду только рад. Из возможных планов: можно попробовать поэкспериментировать с более узкими словесными совокупностями типа Fundamenta Vortaro или Baza Radikaro Oficiala. Но это уже в следующий раз...

    eo:
Bv. komuniki viajn impresojn, rezultojn kaj kritikojn en la komentoj. Memkompreneble, la metodiko estas plej proksimuma. Aparta aldona amuzaĵo estas, ke sufiĉe granda kvanto de tute internaciaj vortoj en NPIV estas prezentitaj kiel derivitaj (foje eĉ per sufiĉe perpleksa maniero). Ekzemple, tiel memkomprenebla vorto kiel hemoglobino en niajn muestrojn neniel povus trafi, ĉar en NPIV ĝi malhavas apartan artikolon kaj estas prezentita nur kiel derivaĵo en la artikolo glob/o (hem/o/glob/in/o). La sama sorto trafis, ekz., la vorton zoologio, kiu (kvankam Fundamenta) en NPIV malhavas apartan artikolon kaj estas prezentita nur kiel derivaĵo en la artikolo zo/o. Ktp, kc. Se iu scipovos elpensi kaj ellabori pli pimpan sistemon — mi ja nur ĝojegos. Eble indas provi eksperimenti pri iuj malpli grandaj vortaj populacioj, ekz. la Fundamenta Vortaro aŭ Baza Radikaro Oficiala. Sed tio okazos jam iun sekvan fojon...


С полным перечнем моих эсперантологических заметок можно ознакомиться тут.

Tags: en esperanto, lingvaj aferoj, эсперанто, языки и языковая проблема
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 36 comments