Лек­си­че­ский ана­лиз пе­сен ка­по­эй­ры


Новости и отчеты     песни, Capoeiralyrics, тексты, статистика, алгоритм, транслитерация

Лек­си­че­ский ана­лиз пе­сен ка­по­эй­ры

Немно­го предыс­то­рии

Ко­гда я на­чи­нал про­ект Capoeira Lyrics, я ду­мал, что хо­ро­шо бы­ло бы иметь к каж­до­му тек­сту транс­ли­те­ра­цию. Для но­вич­ков, ко­то­рые толь­ко на­чи­на­ют за­ни­мать­ся ка­по­эй­рой и ни кап­ли не зна­ко­мы с осо­бен­но­стя­ми транс­ли­те­ра­ции пор­ту­галь­ско­го язы­ка, это бы­ло бы очень кста­ти. Я да­же вы­де­лил спе­ци­аль­ное по­ле, ко­то­рое, по мо­им за­дум­кам, долж­но бы­ло бы за­пол­нять­ся на­равне с тек­стом пес­ни и пе­ре­во­дом. Но, как обыч­но бы­ва­ет, со вре­ме­нем эн­ту­зи­азм немно­го угас, по­ме­ня­лось ме­сто ра­бо­ты и я пе­ре­клю­чил­ся на дру­гие про­ек­ты и за­ня­тия. Спу­стя неко­то­рое вре­мя я вер­нул­ся к про­ек­ту, на­чал ве­сти про­мо-груп­пу вКонтакте и за­ли­вать кон­тент. Мно­гие вы­ска­зы­ва­ли свои по­же­ла­ния, да и у ме­ня са­мо­го к это­му вре­ме­ни уже сфор­ми­ро­вал­ся спи­сок пер­во­оче­ред­ных за­дач и идей, ко­то­рые хо­те­лось бы ре­а­ли­зо­вать в рам­ках это­го про­ек­та.


Ав­то­ма­ти­че­ская транс­ли­те­ра­ция

Сей­час, взгляд немно­го по­ме­нял­ся — я чет­ко знаю в ка­ком ви­де хо­чу ви­деть capoeiralyrics и ра­бо­таю над этим в сво­бод­ное вре­мя. На­чи­ная немно­го бли­же зна­ко­мить­ся с пор­ту­галь­ским язы­ком, я на­шел вот этот до­ку­мент, ко­то­рый за­ро­дил в го­ло­ве сле­ду­ю­щую идею: «По­че­му бы не ге­не­ри­ро­вать транс­ли­те­ра­цию ав­то­ма­ти­че­ски и из­ба­вить поль­зо­ва­те­ля от за­пол­не­ния лиш­не­го по­ля?», тем бо­лее, что пра­ви­ла транс­ли­те­ра­ции прак­ти­че­ски пол­но­стью ал­го­рит­ми­зи­ру­е­мы. Во­об­ще, я не очень люб­лю „изоб­ре­тать ве­ло­си­пе­ды“ и я на­чал ис­кать в ин­тер­не­тах сер­вис пор­ту­галь­ско-рус­ской транс­ли­те­ра­ции, ко­то­рый мож­но бы­ло бы ин­те­гри­ро­вать в про­ект. К со­жа­ле­нию, не на­шел, и на­чал пи­сать про­стой ал­го­ритм, ко­то­рый бу­дет это де­лать.


Ал­го­ритм

Сна­ча­ла, я по­пы­тал­ся «в лоб» ре­а­ли­зо­вать пра­ви­ла прак­ти­че­ской тран­скрип­ции, но на­ткнул­ся на ряд про­блем, свя­зан­ных с опре­де­ле­ни­ем удар­но­сти/без­удар­но­сти сло­гов и вся­кие ме­ло­чи. Чест­но го­во­ря, я с са­мо­го на­ча­ла по­ни­мал, что при­дет­ся ка­ким-то об­ра­зом мо­ди­фи­ци­ро­вать ал­го­ритм, но по­ка не знал как. К то­му же, пер­вые те­сты по­ка­за­ли, что ал­го­ритм ра­бо­та­ет некор­рект­но в неко­то­рых слу­ча­ях и вы­да­ет недо­ста­точ­но пра­виль­ные ре­зуль­та­ты. На­до бы­ло что-то при­ду­мы­вать. То­гда я ре­шил сде­лать «ход ко­нём» и до­ба­вил пра­ви­ло, ко­то­рое за­ме­ня­ло бы ча­сто ис­поль­зу­е­мые в язы­ке сло­ва на за­ра­нее опре­де­лен­ные тран­скрип­ции и не при­ме­ня­ла бы к ним об­щие пра­ви­ла.


Лек­си­че­ский топ

С тех­ни­че­ской ча­стью во­про­сов не воз­ник­ло, но по­яви­лась дру­гая про­бле­ма — где взять этот са­мый топ слов, ко­то­рые нуж­но за­ра­нее от­транс­ли­те­ри­ро­вать. Гугл сно­ва не от­ве­тил мне, но это ока­за­лось хо­ро­шо, так как то­пы слов раз­го­вор­ной ре­чи и слов из пе­сен ка­по­эй­ры на­вер­ня­ка от­ли­ча­лись бы, в чем я по­том и убе­дил­ся. Имея до­ста­точ­но боль­шой ар­хив сы­ро­го ма­те­ри­а­ла в ви­де пе­сен с сай­та, я на­пи­сал скрипт, ко­то­рый про­бе­жал­ся по всем тек­стам и по­счи­тал ча­сто­ту вхож­де­ния каж­до­го сло­ва. Та­ким об­ра­зом, бы­ла по­лу­че­на ста­ти­сти­ка по ча­сто­те ис­поль­зо­ва­ния слов в пес­нях ка­по­эй­ры. Я от­дал этот спи­сок сво­е­му тре­не­ру на транс­ли­те­ра­цию и в бли­жай­шее вре­мя он бу­дет ин­те­гри­ро­ван его в двух­сту­пен­ча­тый ал­го­ритм пор­ту­галь­ско-рус­ской транс­ли­те­ра­ции и я вы­плю­ну его в ви­де неболь­шо­го сер­ви­са в ин­тер­не­те.


А ещё ТОП 100 ча­сто ис­поль­зу­е­мых слов с их пе­ре­во­да­ми мож­но от­дать уче­ни­кам в ви­де ма­те­ри­а­ла, ко­то­рый по­мо­жет по­ни­мать о чем по­ют в пес­нях или еще что-то… Мож­но по­про­бо­вать сде­лать ка­кой-ни­будь вы­вод по этой ста­ти­сти­ке или не де­лать — в об­щем, ВОТ!