Портфолио Гусевой Милены Андреевны

Приветствую потенциальных работодателей и/или единомышленников, а также всех интересующихся на своей персональной странице! Здесь представлены все живые, действующие на данный момент и обновляющиеся с разной периодичностью проекты, так или иначе связанные с программированием (и частично дизайном) и выполненные мной лично.

Содержание документа:

Проекты в сфере NLP (обработки естественного языка)
Проекты в сфере разработки десктопных приложений
- «Фольклор 2.0»
Проекты в сфере веб-разработки
Первые шаги в сфере дизайна

Проекты в сфере NLP (обработки естественного языка)

Тестирование «понимания» моделью `bert-base-chinese` системы классификаторов («счётных слов») в китайском языке

Открыть в Google Colab:

Данный проект был выполнен в рамках домашнего задания по предмету «Компьютерная морфология и синтаксис» (преп. канд. физ.-мат. наук Сорокин А.А.).

Краткий ликбез для не-лингвистов!

«Общепринято, что лингвистическая категоризация имён существительных является отражением человеческого сознания и культуры», – отмечает выдающийся российский и австралийский лингвист Александра Юрьевна Айхенвальд.

Действительно, людям свойственно в процессе познания подразделять предметы на разные классы, группы и кучки. На основе тонко подмеченных сходств и различий каждому объекту в картине окружающего мира отводится особое место.

Неочевидно, но грамматические категории, сильно завязанные на таком подходе к значениям слов, наличествуют в огромном количестве языков. Например, носителю русского или немецкого может сразу прийти в голову разделение всех существительных на мужской, женский и средний род. Лингвисты называют эти одинаково согласующиеся группы существительных «именными классами».

Русский язык – далеко не рекордсмен по количеству родов: в жаркой Африке и на Кавказе говорят на языках, в которых таких согласовательных классов куда больше, чем привычных нам три. Так, в распространённом африканском языке фулá их аж целых 25 штук, в его дальнем родственнике суахили – 15, в чеченском и ингушском – шесть, а в бацбийском (родственном чеченскому и ингушскому малом языке, который в наше время не забыт только в одном селе в Грузии) – восемь.

Есть и другая крайность: французы обходятся всего двумя родами, а подавляющее большинство языков мира и вовсе преспокойненько себе живут и процветают без каких-либо именных классов (к примеру, татарский или английский).

Но сейчас речь не о них, а, напротив, о тех языках, что в стремлении разложить по полочкам всё и вся на уровне грамматики пошли много, много дальше русского или суахили, развив систему классификаторов.

Классификатор — это специальное слово, которое используется в языках, чтобы классифицировать объект, исходя из требуемого контекста. Проще говоря, классификатор сопровождает существительное и относит его к той или иной категории в зависимости от его значения.

В европейских языках классификаторы практически отсутствуют. Наиболее наглядно и приближенно для русскоязычного человека сущность этого явления может проиллюстрировать, скажем, слово «стакан» в словосочетании «два стакана молока». Но главная разница состоит в том, что в языках с классификаторами употребление такого слова носит обязательный характер – как если бы нам приходилось всё время уточнять свою речь: «четыре-длинных-предмета-карандаша», «этот-животное-милый-котик», – а иначе предложение бы просто не получилось.

Самым распространённым в мире языком с классификаторами является китайский. Вместо термина «классификаторы» преподаватели официальной версии китайского языка – путунхуа – также используют более просторечный вариант «счётные слова».

Почему именно «счётные»? Дело в том, что все системы классификаторов, которые только встречаются на планете, подразделяются на несколько типов. И если одна система может принадлежать к типу именных классификаторов, где в принципе запрещается употреблять существительное без сопутствующего классификатора, не считая ряда исключений (таков южноамериканский язык хакальтек – потомок праязыка тех самых древних майя, которые придумали календарь, который скорбные умом товарищи сочли предвестником фейкового конца света ~~в доме, который построил Джек~~), то другая может требовать создания каких-то узко очерченных условий для появления классификатора в предложении. Система, в рамках которой функционируют китайские классификаторы, является гибридной – нумеративно-демонстративной. В переводе на человеческий: китайцы используют счётные слова тогда и только тогда, когда им нужно что-то посчитать, исчислить или сказать про что-то «тот» или «этот» – потому-то они и счётные.

Есть распространённое в научной среде мнение, что вся эта история сложилась по причине того, что у китайского языка хроническая беда с выражением категории числа. Никаких тебе окончаний или суффиксов, по которым сразу можно понять, «один» предмет или их «много», как в русском. Вроде бы существует консенсус, что все существительные по умолчанию множественного числа, пока не указано точное число объектов, но он не срабатывает, если единственность или множественность можно установить из контекста – поди ещё разбери, «студент» имелся в виду или «студенты». Показателей множественного числа нет, кроме частицы для личных местоимений – той, что превращает «я» в «мы», «ты» в «вы» и иногда в разговорном языке «друга/друзей» в «друзей (без разночтений)». На этом всё: если хочешь наверняка снять все референциальные конфликты (проще говоря, устранить возможные недопонимания), будь добр сказать «один-уважаемый-человек-учитель», а не просто «учитель/учителя».

Как видите, метода довольно сложная и разветвлённая – одних только самых ходовых классификаторов насчитывается примерно 97 штук, а в общем их сильно больше сотни. Среди них есть так называемый «универсальный классификатор», который получил свою кличку за то, что употребляется с целой кучей не особо связанных по смыслу между собой понятий, а также иногда используется иностранцами и не очень образованными китайцами в случаях, когда правильное счётное слово никак не вспоминается (надо сказать, такое всё же происходит редко – если «лаоваю» простительно, то свои за подобное загрызут на месте). И это я ещё не упомянула, что одному слову в зависимости от контекста или оттенка значения может соответствовать несколько счётных слов. А ещё бывают устаревшие и борющиеся между собой за место под солнцем паттерны употребления классификаторов,…

Описание проекта

…поэтому даже самые продвинутые современные большие языковые модели иногда дают маху с подбором подходящего счётного слова, что уж говорить о классических трансформерах, обученных 5 и более лет назад. В связи с этим, когда Алексей Андреевич Сорокин озвучил домашнее задание, сформулированное как «взять какой-нибудь моноязычный BERT не для русского и не для английского, установить его в Колабе, поиграться и протестировать, насколько хорошо он справится с каким-нибудь сложным грамматическим явлением, существующим в этом языке», я поняла, что настал звёздный час моей давней гиперфиксации. Пусть китайский BERT попробует подставить вместо спецтокена [MASK] подходящий классификатор – по-моему, идеальное испытание для модели, суть которой как раз и состоит в том, что она обучалась на задаче восстановления пропущенного на месте маски слова. Китайская грамматика, схожая с блочным конструктором, легче лёгкого позволяет провернуть такой трюк.

За деталями мини-исследования приглашаю непосредственно в ноутбук: я никогда не скуплюсь на подробные красочные описания происходящего, понятные даже неспециалисту. В нашей программе:

«Чемодан» сливается с толпой: «сундук» и «ящик» осудили отщепенца
«Длинная собака» больше не в моде? Google даёт красноречивые показания
Сколько ртов придётся прокормить учителю Чжаню?

и ещё много чего интересного-нестандартного.

Узнать больше

Если Вы, уважаемый читатель, захотите погрузиться в волшебный и интригующий мир классификаторов с головой, то сигнализируйте мне, я поделюсь всем, что знаю сама: кому, как не человеку, который чуть было не связал с этими самыми классификаторами оставшуюся жизнь, а также проводил на 17-м Московском международном фестивале языков лекцию на эту нетривиальную тему, располагать всей полнотой материала :) Ну или можете глянуть мою презентацию с лекции – лишним не будет.

Исследование изменения качества классификации текстов по тональности при добавлении в обучающую выборку нейтральных предложений

Открыть в Google Colab:

Данный проект был выполнен мной совместно с моей одногруппницей Валерией Богдановой в рамках спецкурса “Методы машинного обучения для решения проектных задач компьютерной лингвистики” (организаторы — МГУ и фонд “Интеллект”, преп. Студеникина К.А.) и изначально был рассчитан на двоих участников. Преподаватель для удобства разделила требования к заданию на два этапа, которые нужно было выполнить в индивидуальном порядке последовательно друг за другом — мне оставалось лишь взять на себя ответственность за один из них.

Поскольку мне всегда нравилось работать непосредственно с данными, да и задача уровня “просто прогнать модель по датасету и посмотреть, как она справится” показалась мне чуть менее интересной, я сделала свой выбор в пользу начального этапа, суть которого состояла в том, чтобы:

препарировать 2 совершенно разных популярных датасета для анализа тональности на русском языке: датасет, сопровождающий статью “Emotion Classification in Russian: Feature Engineering and Analysis” (далее просто “Emotion Classification”) и CEDR;
привести их к единому формату и “подмешать” в CEDR нейтральные образцы из “Emotion Classification”, поскольку собственная категория нейтральных предложений в нём отсутствует;
подготовить для коллеги по проекту не один датасет, а целых 9, каждый из которых содержит разное количество нейтральных примеров (200, 500, 1000, 1500, 2000, 3000, 5000, 7000 и 10000).

9 отборных молодцов – плодов любви тестовой выборки CEDRa (1882 предложения) и нейтральных экземпляров из “Emotion Classification”, получившихся у меня после всех преобразований, – в неизменном виде напрямую перекочевали в финальный этап, который остался на откуп Валерии, чьей задачей было уже ~~на всём готовеньком~~ протестировать модель ruBERT-tiny2-CEDR на получившихся датасетах, чтобы выяснить, как добавление к выборке нейтральных примеров повлияет на качество классификации русскоязычных предложений по эмоциональной составляющей (напомню, фишка в том, что в “чистом” CEDR, на котором эта модель файнтюнилась на многоклассовую классификацию, нейтральных образцов вовсе нет).

Немного проспойлерю: эксперимент в конце концов показал, что наводнение выборки большим количеством нейтральных примеров не то что не меняет, но порой даже может ухудшить качество классификации (что вполне логично, особенно если в обучающей выборке нейтрального класса предложений не было), но это уже совсем другая история.

Работа над улучшением и развитием проекта Factura

Исходный код проекта на GitHub

Данный вид работ выполнялся в мини-группе из 4-х человек, включая меня, Валерию Богданову, Анну Жуковскую и Алсу Закирову, под руководством нашего преподавателя Гращенкова П.В. (доцент, д.филол.н.) в рамках предусмотренной учебным планом проектной деятельности (предмет “Проектные исследования в фундаментальной и прикладной лингвистике”).

Factura – система автоматического извлечения фактов из текстов на основе правил, задаваемых в YAML-файлах (примеры можно посмотреть здесь). Правила имеют свой особый синтаксис и требуют знания базовой лингвистической терминологии для понимания (по крайней мере, нужно немного разобраться в том, какие бывают составляющие и типы связи между ними в синтаксисе русскоязычных предложений).

Вывод программы может выглядеть по-разному в зависимости от конкретного правила, сработавшего на тот или иной фрагмент текста при его прогоне через систему. В общем виде структура факта включает в себя перечисление:

глагола (который, собственно, и является главным индикатором типа сработавшего правила). К примеру, нам могут понадобиться специфические правила для извлечения фактов вида “X продал/купил Y” или “X заявил о W”
актантов (главных участников ситуации, которых невозможно выкинуть, не повредив грамматичности предложения – то есть при их отсутствии предложение начнёт звучать “не по-русски”)
сирконстантов (второстепенных участников ситуации, которым необязательно быть при глаголе для того, чтобы предложение получилось)

Например, из новостного заголовка “Президент РФ В.В. Путин объявил 2024 год Годом семьи” можно извлечь факт, состоящий из глагола “объявить” и следующих актантов, расклассифицированных по семантической роли:

агенс (одушевлённое действующее лицо, инициатор и контролёр действия) – Президент РФ В.В. Путин
пациенс (участник, претерпевающий существенные изменения, в данном случае испытывающий на себе действие агенса) – 2024 год
результатив, или фактитив (неодушевлённый участник ситуации, появляющийся или исчезающий в результате действия или воздействия) – Год семьи

Этапы работы:

Онбординг: обучение базовым навыкам написания правил в Factura, в ходе которого мы общими силами выявили в самой системе несколько неочевидных багов;
Целеполагание: постановка исследовательской проблемы, в нашем случае это был поиск основных возможных групп фактов, пригодных для извлечения из новостных текстов;
Разбивка на пары: мини-группа из 4-х человек была разделена на две пары, каждая из которых начала параллельно работать над своей частью задания. Мне в напарницы досталась Валерия Богданова;
Выполнение заданий в парах:
- каждая мини-подгруппа – пусть и немного в своём ключе – работала над одной и той же общей целью, которая заключалась в обработке датасетов с текстами новостных статей для получения списка встречающихся в них существительных, глаголов и прилагательных в порядке убывания их частотности.
- нам с Валерией был выдан датасет yutkin/Lenta.Ru-News-Dataset, а именно его версия 0.1, содержащая 699 746 текстов новостей популярного портала Лента.Ру с сентября 1999 по июль 2018 года и весящая почти 2 ГБ.
- с полным набором операций, произведённых над датасетом в целях подсчёта частотности содержащихся в нём слов, можно ознакомиться здесь:

Открыть в Google Colab:

Порядок действий по обработке новостного корпуса Лента.Ру:

Сначала датасет был загружен на Google Drive для удобства многократного использования в Colab;

Затем мы с Валерией коллективными усилиями составили кастомный список стоп-слов в формате .txt, который был загружен на Google Drive рядом с датасетом. Список предназначался для того, чтобы не засорять итоговые данные сокращениями, служебными словами, указательными (демонстративами) и относительными (релятивами) местоимениями, ошибочно определяемыми как существительные или прилагательные, а также глаголами и существительными, не несущими сколь-нибудь значимого для нашей статистики самостоятельного смысла (напр., “быть”, “являться” или “раз”, “вещь”, “штука”);

Поскольку предложенный нашей команде набор данных оказался действительно огромным, я предусмотрела несколько ячеек и кое-что внутри самой функции обработки новостного корпуса для того, чтобы иметь возможность на время приостанавливать процесс подсчёта частотности с сохранением прогресса и записью номера отрывка, обработанного последним на момент приостановки, а также осуществлять резервное копирование. Впоследствии в ходе тестирования моего Франкенштейна перед началом подсчёта пару раз с помощью этих же ячеек я обнуляла сохранённую статистику и текущую позицию в датасете, когда что-то шло не так. Система устроена довольно просто: её базис – бинарные файлы и встроенная библиотека pickle;

Файл с текстами был прочитан как .csv с помощью библиотеки Pandas и далее был направлен в большую длинную функцию, как раз и занимающуюся подсчётом частотности. Написание этой функции полностью лежало на мне;

Основа функции – привычный цикл for, проходящийся по новостным фрагментам из датасета. После пословной разбивки отрывка для каждого слова определялись нормальная (начальная) форма и часть речи (part of speech, сокращённо POS). Для лемматизации (приведения к нормальной форме) и автоматического определения POS была использована библиотека Pymorphy2. Далее в зависимости от полученной части речи выбирался соответствующий словарь, где ключами были сами слова в нормальной форме, а значениями – количества их вхождений во все обработанные на данный момент фрагменты. (Сейчас уже понимаю, что легче было бы воспользоваться готовой реализацией счётчика, называемой Counter – структурой данных из встроенной в Python 3 библиотеки collections, но тогда почему-то поступила консервативно и по старинке.) Если что-то ранее не попадалось в тексте, то оно заносилось в словарь как новый ключ со значением 1, если же уже встречалось, то к значению нужного ключа прибавлялась единица. Словари, записывающиеся в бинарники, были заведены в количестве 6 штук (3 основных и 3 резервных) только для необходимых в нашем исследовании частей речи (имён существительных, имён прилагательных и глаголов) – слова, получившие иные метки POS, после обработки Pymorphy2 просто игнорировались. Как видите, алгоритм вышел довольно громоздким и долго выполняющимся, особенно на таком непомерно объёмном корпусе. Кроме самого цикла и механизма автосохранения прогресса я также реализовала формат выходных данных, благодаря которому могла отслеживать изменения в статистике в реальном времени и быстро находить фрагмент корпуса, во время обработки которого по какой-то причине случилась неожиданная пауза;

Ввиду слишком длительного времени отработки функции на всём датасете и быстро исчерпывающихся бесплатных ресурсов Colab общая статистика была составлена примерно на 1/3 от суммарного количества текстов в корпусе (222 565 фрагментов из 699 746). Совместно с нашим руководителем П.В. Гращенковым мы пришли к выводу, что этого количества информации вполне достаточно для выявления общих закономерностей в данных;

Тем временем наши коллеги – Анна Жуковская и Алсу Закирова – тоже не били баклуши и проделывали операции схожего рода над гораздо менее объёмным датасетом. Настолько менее объёмным, что по окончании его полной обработки у них получились списки всего из 1704 существительных, 722 глаголов и 490 прилагательных;

Результат же отработки моей функции целиком и полностью вышел практически безразмерным (так, к примеру, свод частотных существительных по материалам Ленты.Ру насчитывает 85737 вхождений). Естественно, что в самом его низу повисли никому не нужные редкие имена собственные, встретившиеся всего по 2 раза, но мы тем не менее нуждались в каких-то чётких критериях, чтобы определиться с нижней границей списка и не выкинуть из него слишком мало или, напротив, слишком много ценных данных. Со всем этим надо было срочно что-то решать, тем более, что Павел Валерьевич и без того собирался в конце концов объединить усилия двух мини-подгрупп;

Тогда мы коллективно постановили, что именно числа, полученные девчонками на маленьком наборе данных, будут определять итоговую границу ранжирования по частотности, которое, в свою очередь, станет фундаментом дальнейших изысканий. Так как я в нашей паре больше возилась с кодом (и, стоит отметить, по любви), а Валерия корпела над текстовой отчётностью и подбором литературы, то эта обязанность вновь пала на меня;

Первым делом я отрезала от верхушки наших с Валерией перечней ровно по 1704 существительных, 722 глагола и 490 прилагательных, как у Анны и Алсу. Затем я осуществила объединение наших списков с их списками по каждой части речи с последующим устранением дубликатов, входящих в пересечение этих множеств (таковых было немало, на всякий случай они тоже выписаны отдельно). Таким образом, на выходе получилось этакое усреднённое на двух разных датасетах перечисление слов с самостоятельным лексическим значением, которые чаще всего употребляются в текстах новостей: 2545 существительных, 1070 глаголов и 790 прилагательных. Все варианты списков с удобной и понятной нотацией в названиях папок и файлов можно при наличии желания пролистать тут.

Заполнение таблицы согласовательных моделей:
- Если уважаемый читатель, читая всю предшествующую портянку, хоть раз задался вопросом, а для чего нам понадобилась эта канитель со списками, то вот и ответ (по крайней мере, для глаголов): 1070 глаголов, выуженные из двух датасетов, были целиком перенесены в таблицу согласовательных моделей, смысл существования которой – хранить в себе шаблоны-заготовки всех возможных правил, которые мы можем написать на каждый из собранных глаголов.
- В нашем случае согласовательная модель – это, выражаясь простым языком, записанные с помощью специальных лингвистических обозначений сведения о том, каких участников ситуации, кроме конвенционально-привычного “подлежащего”, может присоединять глагол. Поскольку, как я уже отмечала ранее, глагол – это краеугольный камень любого правила в Factura, то вполне логично, что одна такая модель равняется одному потенциальному правилу. Количество строчек в обоих листах таблицы ни разу не совпадает с 1070, так как на один глагол может приходиться более одной согласовательной модели (например, если у него наблюдается полисемия, то есть многозначность), а какие-то глаголы всё-таки были сочтены несущественными, “не заслуживающими” отдельного правила и оказались-таки выброшены на свалку истории.
- Условные обозначения: Актанты и сирконстанты указаны в строчку справа от каждого глагола посредством меток падежа, в котором они должны находиться при согласовании с конкретным глаголом. Падежные метки необязательных участников ситуации взяты в скобки. Необходимость предлога для согласования отмечается с помощью значка “:P”, размещённого справа от падежной метки.
- Таблицу мы с Валерией заполняли совместными творческими усилиями, пока Алсу и Анна пытались как-то разделить существительные на семантические кластеры (то есть категории, в которых все слова как-то связаны между собой по смыслу), чтобы потом подставлять их в наши шаблоны уже непосредственно при написании правил.
Написание прототипов новых правил на основе собранных данных: поскольку этот этап пришёлся на самый конец семестра, мы не успели закрыть все задачи по нему до конца, да и с внятными семантическими категориями для существительных у наших коллег так и не срослось. Однако несколько правил-прототипов, которые потом можно модифицировать для добавления более сложных групп фактов, всем миром написать мы всё же смогли.

В эпоху нейросетей мало кто занимается правиловыми методами обработки естественного языка (вроде как принято считать, что это уже неэффективно, неактуально и не хайпово), и Factura – один из немногих примеров живого, здравствующего и, самое главное, удачного проекта в этой сфере. Так что желаю Factura устойчивого, стабильного развития, возможно, даже выхода на рынок в виде коммерческого продукта – и очень надеюсь, что те, кто придут на курс к П.В. Гращенкову после нас, оттолкнутся от материалов, что завещали им мы, и успешно продолжат наше достославное дело.

Тестирование «способности» модели `dardem/xlm-roberta-large-uk-toxicity` к анализу тональности

Открыть в Google Colab:

Данный проект был выполнен в рамках домашнего задания по предмету “Машинный перевод” (преп. канд. физ.-мат. наук Сорокин А.А.). Ноутбук снабжён подробной документацией происходящего в коде, а также схемами, мемами и шутками, без которых практически не обходится ни один написанный мной текст.

Характеристики и практическая ценность проекта

Суть домашнего задания: взять моноязычную модель (из семейства BERT или BERT-подобную – напр., RoBERTa или ALBERT) с портала HuggingFace для любого языка, кроме русского и английского, обученную для анализа тональности или распознавания именованных сущностей (на выбор) и проверить, насколько хорошо она справляется с поставленной задачей.
Кто обучал модель: Дарина Дементьева, исследователь-постдок в Мюнхенском техническом университете.
Мотивация выбора задачи: первый (и, может быть, единственный) релевантный набор из 4-х моделей, на который я наткнулась в Сети, был предназначен именно для анализа тональности, причём для довольно узкого подсегмента этой задачи – бинарной классификации текстов на токсичные и нетоксичные. Я выбрала в качестве объекта тестирования самую большую и толковую версию из 4-х – xlm-roberta-large-uk-toxicity.
Практическая ценность задания:
- Работа с относительно малоресурсным языком;
- Тестирование инструмента, который теоретически может использоваться для модерации контента во Всемирной паутине.

Результаты работы

Принято считать, что бинарная однометочная классификация легче многоклассовой – неважно, однометочной или многометочной – следовательно, порядочно обученные на такую задачу модели и на инференсе должны выглядеть достойно. Однако, несмотря на то, что на вход модели я подавала весьма простенькие примеры, качество анализа тональности оставляло желать лучшего. Вполне возможно, что причинами тому послужили высокая зависимость задачи от контекста, низкое качество обучающей выборки и игнорирование фактора сарказма при составлении датасета для обучения.

Дообучение моноязычной RoBERTa (`youscan/ukr-roberta-base`) для распознавания именованных сущностей

Открыть в Google Colab:

Данный проект выполнялся в рамках домашнего задания по предмету “Машинный перевод” (преп. канд. физ.-мат. наук Сорокин А.А.) параллельно и одновременно с предыдущим проектом и в некотором роде является его логическим продолжением. Ноутбук обильно сдобрен схемами и мемами в моём фирменном стиле.

Характеристики и практическая ценность проекта

Суть домашнего задания: взять моноязычную модель (из семейства BERT или BERT-подобную – напр., RoBERTa или ALBERT) для любого языка, кроме русского и английского, и самостоятельно дообучить её на открытом датасете с портала HuggingFace для одной из двух задач на выбор: анализа тональности или распознавания именованных сущностей.
Кто обучал модель: Авторство рассматриваемой версии моноязычной RoBERTa принадлежит технологическому стартапу YouScan.
Мотивация выбора задачи: Поскольку сфера машинного обучения на этом официальном языке ряда субъектов РФ не особо развита даже в стране его происхождения, выбирать из двух задач особо не пришлось: каким-то чудом, уже практически отчаявшись в своих поисках, я наткнулась на датасет polyglot-ner для распознавания именованных сущностей, в котором среди 40 доступных языков числился и искомый.
Практическая ценность задания:
- Работа с относительно малоресурсным языком;
- Вдумчивая работа с данными обучающей выборки в условиях её чрезвычайной загрязнённости.

Результаты работы

Несмотря на огромное количество вложенных в проект усилий, качество распознавания именованных сущностей оказалось не очень удовлетворительным по ряду причин:

Количество именованных сущностей разных категорий в обучающем датасете не сбалансировано как следует, например, именованных сущностей с тегом ORG (организация) исчезающе мало;
Данные обучающей выборки сильно загрязнены, поскольку их разметка производилась автоматическим способом. В датасете слишком много ложноотрицательных меток (когда именованная сущность по факту есть в тексте, но размечена тегом O – “именованная сущность отсутствует”);
Обучение велось в течение всего одной эпохи и далеко не на всём представленном в датасете объёме данных в силу ограниченности бесплатных ресурсов Google Colab.

Думаю, что исправление всех этих недостатков, требующее вложения ещё более колоссальных усилий (особенно по части того, что касается очистки данных и эмпирической подкрутки настроек модели при обучении), могло бы сделать дальнейшие эксперименты гораздо более удачными.

Построение разделяющей поверхности для выборки с помощью самостоятельной реализации перцептрона Розенблатта на Python в Google Colab

Открыть в Google Colab:

Данная мини-работа выполнена в рамках домашнего задания по предмету “Компьютерная морфология и синтаксис” (преп. канд. физ.-мат. наук Сорокин А.А.).

Содержание задания: в наличии имеется один из нескольких вариантов обучающей выборки (в моём случае – вариант №1), каждый экземпляр которой задан двумя признаками (или каждая точка задана двумя координатами в двухмерном пространстве, тут уж как угодно). В выборке имеется 2 класса, в каждом из классов по 4 экземпляра. Каждый элемент обучающей выборки помечен меткой 1 или -1, обозначающей его принадлежность к тому или иному классу. Задача – самостоятельно реализовать однослойный персептрон на Python, обучить его на имеющейся выборке, построить график получившейся разделяющей поверхности (конкретно в контексте задания – разделяющей прямой) и найти её уравнение.

Кому-то может показаться, что это совсем базовое упражнение для желторотиков и упоминать его в портфолио нет смысла, но я на момент получения задания только начинала погружаться в безграничный и вечно меняющийся мир машинного обучения (в частности NLP), поэтому сперва мне было сложнее вникнуть в суть дела, чем кажется на первый взгляд. Тем не менее, сочетание творческого азарта и умеренной твёрдости разгрызаемого гранита науки в конечном счёте принесло мне в процессе решения задачи только удовольствие.

Проекты в сфере разработки десктопных приложений

Как известно, на Python в наше время можно создать практически что угодно (начиная приложениями под Android на Kivy и заканчивая десктопными кроссплатформенными Франкенштейнами на Tkinter и PyQt). Далеко не факт (мягко говоря), что это “что угодно” будет отличаться эффективностью расходования ресурсов компьютера, удобством использования или приятным дизайном, но, когда выбор доступных инструментов не так разнообразен, искушение достать швейцарский нож и поиграться с ним весьма велико. Чаще всего игра в ножички заканчивается в худшем случае порезом, в лучшем – осознанием нецелесообразности использования данного инструмента (если уж тебе так надо открыть жестяную банку, отложи встроенную в многофункциональный ножик хлипкую открывашку и возьми нормальный консервный нож!). Но иногда лучшее – враг хорошего, несовершенной мини-открывашки вполне хватает для своих целей, а значит, подобные эксперименты всё же доводятся до конца и увенчиваются успехом.

Так произошло в случае с моим единственным на данный момент опытом разработки десктопного приложения на Python, речь о котором пойдёт далее. Я считаю «Фольклор 2.0» удавшимся образцом, поскольку свою ключевую функцию приложение выполняет на все 100%, а дизайн весьма понятен и не вводит пользователя в заблуждение. Итак, встречайте:

«Фольклор 2.0»

Исходный код на GitHub

Назначение приложения

«Фольклор 2.0» – десктопное приложение для ОС Windows, созданное мной в 2021 году на 3-м курсе бакалавриата в ходе написания курсовой работы на тему «Русская фольклорная музыкальная традиция в культурном пространстве современной Москвы: формы актуализации (на материалах сетевых источников и СМИ)». Данная работа была продолжена и расширена в 2022 году, на 4 курсе и послужила источником глав I и II моей бакалаврской выпускной квалификационной работы «Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация».

Предназначение приложения – визуализировать данные о музыкальных фольклорных мероприятиях, проводившихся в рамках городского фестиваля “Московская Масленица” с 2018 по 2020 гг. За 2021 год «Фольклор 2.0» неоднократно демонстрировался как онлайн, так и оффлайн вместо мультимедийной презентации на научных конференциях, где я делилась своими наработками по теме. Статья, обобщающая результаты этого этапа исследования, вышла в ELibrary:

Гусева, М. А. Репрезентация и восприятие русской фольклорной музыкальной традиции в современной Москве на примере фестиваля «Московская Масленица» / М. А. Гусева // ТЕОРИЯ и ПРАКТИКА СОВРЕМЕННОЙ науки : сборник статей VI Международной научно-практической конференции. В 2 частях, Пенза, 20 ноября 2021 года. Том 1. – Пенза: Наука и Просвещение, 2021. – С. 196-212. – EDN OMQRTT.

Довольно-таки странное название «Фольклор 2.0» пришло мне в голову в готовом виде как-то само собой ещё на этапе возникновения концепта приложения и с тех пор не менялось, став своего рода факультетским брендом.

Характер собранных данных

Какого характера были данные, собранные при написании курсовой работы, и что конкретно надо было визуализировать?

В первую очередь стоит прояснить следующее: целью курсовой работы было выявление форм и методов актуализации русской народной музыки в культурном пространстве современной Москвы на примере популярного городского фестиваля «Московская Масленица», который является частью цикла уличных мероприятий «Московские сезоны». Фестиваль проходит в столице с 2017 года и считается действительно массовым по посещаемости среди жителей и гостей Москвы. В силу глубоких исторических корней праздника в ходе мероприятий «Масленицы» активно используется фольклорная составляющая русской культуры, на площадках звучит народная музыка, поэтому лучше образца для изучения в рамках вышеозначенной темы просто не сыскать.

Возможно, наличие авторских терминов слегка затрудняет попытки осмысления содержания предыдущего абзаца, поэтому разберёмся с терминологией не отходя от кассы:

Форма актуализации – это образ действия, направленного на повышение известности, узнаваемости и актуальности (отсюда и “актуализация”) в обществе нынешнего века традиционной музыки, дошедшей до нас прямиком из седой старины. Таковых может быть бесконечное множество (музыкальный спектакль, фестиваль, концерт, городской праздник, мастер-класс и т.д.), но, как показало исследование, большинство из них, кроме концертов и музыкальных спектаклей, исчезающе редки. Ваша покорная слуга сама в составе фольклорно-этнографического театра МГУ “Братыня” за жизнь принимала участие почти исключительно в этих двух типах мероприятий (а также в трёх мастер-классах по русским народным танцам и гаданиям и в одном масштабном комплексном проекте, включавшем в себя издание книги-альбома и съёмку фильма – короче, наберёте в поисковике “Денис Князев, Русская свадьба Заонежья”, и будет вам счастье. И мой мордент там увидите).

Методы актуализации, в свою очередь, – это не что иное, как совокупность жанровых, культурных, исполнительских и иных особенностей, из которых складывается общее впечатление от мероприятия и которые составляют его непосредственную сущность. Все эти разнообразные оттенки индивидуальной стилистики, присущей каждому исполнителю в частности или приветствуемой организатором площадки в целом, можно условно разделить на три больших зонтичных группы: синтез фольклора с культурными традициями других стран и народов (далее «синтез культурных традиций» или «синтез культур»), синтез фольклора с разными жанрами (далее «синтез жанров») и стремление к аутентичной подаче фольклорного материала, не отходящей далеко от подлинных этнографических записей сельских бабушек и дедушек, последних из могикан, сохранивших в своей памяти истинную традицию (далее «аутентичность»). В итоговой дипломной работе 4 курса “метод актуализации” по научно-методологическим причинам был переименован в “содержание мероприятия, актуализирующего народную культуру”, окончательное состояние терминологии вкратце обрисовано здесь и ниже.

Таким образом, ключевая практическая задача напрямую следовала из цели исследования и применяемой терминологии. Чтобы выявить формы и методы актуализации русской народной музыки на примере “Московской Масленицы”, требовалось:

Собрать информацию обо всех площадках проведения фестиваля за рассматриваемый период (2018-2020 гг.)
Выяснить, какие из них и когда становились домом для музыкальных фольклорных мероприятий
Для каждого события на всех задействованных в разные годы площадках посредством изучения состава выступающих и характера мероприятий выписать формы (концерт или музыкальный спектакль – других, к сожалению, не нашлось) и методы (аутентичность, синтез жанров или синтез культур) актуализации
Свести всё собранное по крупицам в единую таблицу и проанализировать с количественно-статистической точки зрения, дабы иметь возможность сделать предварительные выводы

Львиная доля информации о количестве мест проведения фестиваля «Московская Масленица» была получена благодаря Порталу открытых данных г. Москвы, где был обнаружен набор данных (датасет) с географическими координатами и адресами всех площадок фестиваля за всё время его проведения. В датасете содержится 60 позиций. Основная часть сведений о формах актуализации русского музыкального фольклора была почерпнута с официального сайта Департамента культуры г. Москвы, сайта проекта «Московские сезоны» и из местных онлайн-СМИ. Представление же о методах актуализации составлялось на основе просмотра видеозаписей выступлений участников фестиваля и их социальных сетей.

Выбор фреймворка

Если начинающего Python-разработчика вдруг посещает смелая мысль о создании своего собственного десктопного приложения, как правило, он выбирает из двух доступных опций: Tkinter и PyQt (вообще-то существует ещё и Customtkinter, названый сынок старого доброго Tkinter, в базовых случаях мало чем уступающий PyQt в плане красоты получающегося интерфейса, но в период создания “Фольклора 2.0” я о нём ничего не слышала и своими ручками пока не пробовала). Эти две библиотеки для создания графических пользовательских интерфейсов (GUI, Graphic User Interface) в чём-то сходны по назначению и функционалу, но различий между ними куда больше, поэтому выбирать из них наиболее подходящий необходимо сугубо индивидуально, исходя из потребностей конкретного проекта. Рассмотрим основные особенности двух братьев-~~акробатьев~~ в деталях:

Tkinter	PyQT
Объектно-ориентированная обёртка поверх инструментария кроссплатформенной библиотеки базовых элементов графического интерфейса Tk (Tk + interface = Tkinter)	Обёртка поверх фреймворка Qt, предназначенного для разработки кроссплатформенного программного обеспечения и изначально написанного на C++
Встроенный компонент большинства дистрибутивов Python	Отдельно устанавливаемая библиотека
Прост в освоении	Многие знания — многие печали, шире функционал — больше сложностей в освоении
Высокая скорость разработки — голый прототип можно наклепать буквально за вечер	Если в деталях работы фреймворка так с кондачка не разобраться, то и времени в разработку придётся вложить побольше
Предоставляет только набор базовых элементов интерфейса	Комплексное решение, поддерживающее расширенные возможности для кастомизации виджетов, многопоточность, работу приложения с сетью, интеграцию с устаревшим движком для двухмерной/трёхмерной графики OpenGL (то есть при желании реально наваять целую 3D-игру) — в общем, с помощью PyQt можно сделать действительно всё что угодно, кроме разве что ААА-игр
Дизайн приложения выглядит несколько устаревшим, "любительским"	Приложения выглядят более современными, более визуально привлекательными, я бы даже сказала, "профессиональными", что ли; дизайн можно настроить до мельчайших параметров
Предназначен исключительно для десктопных приложений	Помимо приложений для персональных компьютеров, подходит также для разработки мобильных приложений
Чем выше размер приложения, тем сильнее проседает производительность	Отлично подходит для более громоздких проектов, где требуется высокая производительность

Казалось бы, выбор очевиден, ведь PyQt обскакал Tkinter почти по всем параметрам. Однако если подходить к делу с холодной головой, то довольно скоро окажется, что все финтифлюшки PyQt в наших обстоятельствах вовсе ни к чему и ведут лишь к потере времени, переусложнению проекта и чрезмерной плодячке новых сущностей.

Так, среди немногих пунктов в таблице, по которым PyQt с треском проигрывает Tkinter, значится скорость разработки. В условиях, когда приложение является ~~Частью Чего-то Большего~~ побочным продуктом более серьёзной деятельности – научной, в которую, как бы ни хотелось покодить в своё удовольствие, прямо здесь и прямо сейчас требуется вложить как можно больше времени, высокая скорость разработки становится ключевым преимуществом. Проще говоря, кому интересен блистающий великолепием дизайн, если данные, которые ты хочешь с его помощью визуализировать, обработаны из рук вон плохо? Зачем тратить на что-то глубоко второстепенное те усилия, которые можно было бы перенаправить на доработку основного содержания? Да и вообще – для чего городить огород, если для моих нужд с лихвой хватит базового решения, простого, как буханка хлеба?

Убедительно? То-то же.

Вот и я подумала, что использование PyQt в качестве фреймворка для разработки GUI не даст мне ничего положительного, кроме чувства морального удовлетворения от того, что я пошла более сложным путём. Так что мой выбор в итоге вполне закономерно пал на Tkinter.

Функционал приложения

Интерфейс приложения включает в себя:

интерактивную карту мест проведения музыкальных фольклорных мероприятий в рамках фестиваля «Московская Масленица»;
легенду карты;
многоуровневое меню с более подробной информацией о местах проведения, исполнителях и характере мероприятий;
справку с информацией о создателе;
возможность обратной связи, предусмотренной в разделе “Опции”.

Интерактивная карта

Открывается по нажатии кнопки “Открыть карту” в отдельном окне установленного в системе браузера. Для удобства просмотра маркеры на карте кластеризованы автоматическим образом. При наведении курсора на маркер можно прочитать адрес площадки, которую он обозначает. В отдельности от приложения карту можно посмотреть здесь.

Легенда карты

Открывается в отдельном окошке приложения при нажатии одноимённой кнопки. Элементов легенды карты всего 2: зелёными маркерами обозначены места, где в рамках фестиваля проводились мероприятия, посвящённые актуализации русского музыкального фольклора, а оранжевыми маркерами отмечены точки на карте, где подобные мероприятия не проводились. При нажатии кнопки “Элемент 1 из 2” или “Элемент 2 из 2” в зависимости от текущего состояния окна легенда карты переключается на отображение следующего элемента. Каждый элемент снабжён иллюстрирующим его содержание значком и кратким текстом, раскрывающим его содержание.

Многоуровневое меню

Многоуровневое меню даёт возможность познакомиться с обработанными данными поближе и представляет собой своеобразную вертикальную таблицу из 3-х полей со скроллбарами (полосами прокрутки). В первом поле перечислены все адреса мест проведения музыкальных фольклорных мероприятий “Московской Масленицы”. Двойной клик левой кнопкой мыши на нужный адрес активирует второе поле, в котором расписано, какие исполнители и коллективы в разные годы выступали на данной площадке. Если напротив какого-либо года стоит прочерк, значит, в этом году фольклорных событий по этому адресу не проходило. Если же напротив года указан тег “Неизвестно”, то имеются сведения о том, что мероприятие проводилось, но точной информации о его содержании не сохранилось. Двойной клик на строчку с конкретным годом и исполнителем делает доступным третье поле, где через запятую перечислены форма и метод актуализации сответственно.

Справка

Справка открывается в отдельном окошке приложения при нажатии кнопки, расположенной в правом верхнем углу главного окна и изображающей жёлтый кубик со знаками вопроса, нарисованными на его гранях. Содержит краткую сводку информации о проекте, актуальную на момент его создания.

Состав проекта и стек технологий

Приложение “Фольклор 2.0”
- Текущая версия: 1.0.1
- Операционная система: Windows 10 (64 bit) и выше
- Язык программирования: Python 3.9
- Использованные библиотеки:
  - Tkinter 8.6 – для создания графического интерфейса приложения и связи всех его элементов между собой
  - Pandas 2.2.2 – для анализа собранных в ходе исследования неструктурированных данных
  - Folium 0.12.1 – для конструирования интерактивной карты
  - Selenium 4.20.0 – обычно применяется для автоматизированного тестирования веб-приложений и требует наличия соответствующего веб-драйвера в папке с проектом исполняемого файла. В нашем случае эта библиотека нужна для просмотра интерактивной карты в браузере через интерфейс приложения. Текущая версия “Фольклора 2.0” работает с любыми распространёнными браузерами, основанными на движке Chrome (кроме Яндекс Браузера), установленными в системе. Планируется добавление возможности использовать веб-драйверы для других популярных браузеров (Firefox, Microsoft Edge, Yandex)
  - Pyinstaller 6.6.0 – для компиляции Python-проекта в исполняемый файл, пригодный для распространения и запуска на других компьютерах, где в системе не установлен Python
- Комплект поставки: архив, содержащий исполняемый файл .exe и папку с сопутствующими файлами, необходимыми для его функционирования

Расширенная документация и дополнительные материалы

Готовый к использованию дистрибутив приложения, снабжённый кратким руководством пользователя и небольшой видеоинструкцией по применению, прикреплён к репозиторию на Github в разделе Releases.

Также надо отметить, что значительная часть данного приложения при работе над итоговой выпускной квалификационной работой впоследствии была переупакована в сайт (см. ниже) и вошла в состав второй его части “Московская Масленица”.

Если хочется больше наукообразия, то ещё раз советую заглянуть в саму курсовую работу. А можно забежать вперёд и ознакомиться с бакалаврской ВКР, в которой примерное представление о сути приложения даёт глава I.

Проекты в сфере веб-разработки

Стоит отметить, что 2 из 3-х представленных ниже проектов (все, кроме интерактивной карты лингвистических экспедиций, изначально размещённой на запасном российском домене, когда-то полученном от хостинг-провайдера в подарок за бонусные баллы и валявшемся без надобности) в своё время пострадали из-за отключения российских банков от системы SWIFT, поскольку домены для них (оба в зоне .xyz) были куплены у регистратора Namecheap из США.

Когда настало время продлевать домены, я уже не могла оплатить их без значительных танцев с бубном, криптой или виртуальными иностранными картами, но заморачиваться не стала (или, скорее, не имела на это ресурсов), поэтому непродлённые домены вскоре были потеряны навсегда. Сайты некоторое время пролежали в руинах небытия, откуда я потихоньку начала извлекать их ближе к текущему моменту.

Еженедельное культурно-просветительское интернет-издание «Китайская неделя» (chineseweekly.ru)

Исходный код на GitHub

Рождение идеи

Работа над проектом началась в 2021 году, когда я училась на ФИЯРе на 3-м курсе бакалавриата, а в нашем штатном расписании появился предмет под названием “Кафедральный практикум”. Кафедральный практикум представлял собой разновидность групповой проектной деятельности, целью которой стояла разработка чего-то общественно полезного и связанного с регионоведением, культурологией или межкультурной коммуникацией. Можно сказать, что нам предоставлялась свобода действий (в рамках разумного): одна из групп даже выдумала с потолка ничем физически не обеспеченный и принципиально нереализуемый силами трёх студентов проект постройки этнодеревни в Ленобласти. Подавляющее число групп, однако, обошлось чем-то более простым, наподобие тематических Телеграм-каналов, групп ВК и страничек в на тот момент ещё не запрещённом Нельзяграме. Кажется, будто какая-то одна пара девчонок точно выкатила страшный как атомная война сайт на Тильде, но за давностию лет всего и не упомнишь.

В студенческих коллективах, на мой взгляд, в большинстве случаев о командной работе говорить не приходится. За 4 года обучения на ФИЯРе участники мини-групп в основном либо садились мне на шею и скидывали на меня ответственность, либо, напротив, брали всю инициативу в свои руки и не давали вставить ни слова. Надо отметить, что к моменту поступления в магистратуру народ, по всей видимости, духовно подрастает, поэтому на ОТиПЛе мой опыт командного взаимодействия был в большей степени положительным, но это к теме не относится. На ФИЯРе же спокойный, взвешенный, уравновешенный диалог взрослых людей и равномерное распределение обязанностей были бесценной редкостью, посему чаще всего, если такая возможность предоставлялась, я предпочитала быть волком-одиночкой. На этот раз мне разрешили делать индивидуальную работу в порядке исключения, чем я и воспользовалась.

В связи со свежевозникшей в ту пору гиперфиксацией на счётных словах (классификаторах) в китайском языке моей первой смелой идеей было провести что-то вроде психолингвистического эксперимента с китайскими студентами нашего факультета и проверить, как владение языком, в котором присутствует это грамматическое явление, отражается на способности классифицировать и разделять “по кучкам” не только слова, но и объекты реального мира. Поскольку на тот момент я не была знакома с психолингвистической методологией и не смогла разработать достоверную с научной точки зрения схему проведения эксперимента, затея была отложена до лучших времён.

Однако к тому моменту я уже кое-что смыслила в веб-разработке, активно нарабатывала навыки программирования и ещё только начала интересоваться машинным обучением и обработкой естественного языка, поэтому захотела взять что-то связанное с предыдущей темой, но в контексте ML и обучить свою нейросетку для китайского языка (по иронии судьбы, часть прочитанных в то время научных статей легла в основу моей грядущей магистерской диссертации). Чуть-чуть помучавшись, я окончательно заплутала и запуталась в хитросплетениях своих начинаний, а впоследствии осознала, что моих знаний в данной сфере пока недостаточно.

Тогда в моей голове родилось спасительное светлое озарение: почему бы мне не сделать свой собственный интерактивный сайт о Китае и китайском языке, чтобы заодно потренировать навыки написания фронтенда и бэкенда? Как выяснилось позже, именно этому, третьему замыслу суждено было воплотиться в реальность и быть доведённым до конца. Так на свет появилось моё еженедельное культурно-просветительское интернет-издание «Китайская неделя», способствующее преодолению пропастей и наведению мостов между двумя уникальными и дружественными культурами: русской и китайской.

Состав проекта и стек технологий

Интернет-издание «Китайская неделя» является целостной системой, состоящей из следующих составных частей:

Сайт (доступен в поисковой выдаче Яндекс, в данном примере под номером 5)
- Бэкенд: Python 3.9 (Flask 2.0.1)
- Фронтенд: HTML/CSS/JS(JQuery)
- База данных: SQLite
- ORM: SQLAlchemy
- Доменное имя:
  - Ранее: chineseweekly.xyz (регистратор – Namecheap)
  - Сейчас: chineseweekly.ru (регистратор – Спринтнеймс)
- Хостинг-провайдер: Спринтхост
- Веб-аналитика: Google Analytics (временно не работает), Яндекс Метрика
- Сервис комментирования публикаций: Disqus (комментарии, оставленные вплоть до июня 2022 г., стёрлись при переезде на новый домен, избранные отзывы можно посмотреть здесь)
- “Карта” сайта:
  - Заглавная страница (с формой для подписки на email-рассылку)
  - Список публикаций, расположенных в порядке возрастания давности
  - Отдельные страницы публикаций в количестве 25 штук (со строкой поиска по сайту от Яндекса, формой для подписки на email-рассылку и блоком для комментариев)
  - Информация о Телеграм-боте с кнопкой перехода к диалогу
  - Краткая информация об авторе сайта и миссии блога (частично устарела)
  - Политика использования Cookies
  - Административная панель Flask-Admin, предназначенная для:
    - Публикации, хранения и редактирования текста постов (с HTML-разметкой)
    - Хранения и выгрузки списка email-адресов для рассылки
Телеграм-бот @audirovanie_bot (временно не работает)
- Код: Python 3.9 (telebot)
- Провайдер услуг по распознаванию речи с помощью AI: IBM Cloud (больше не работает с российскими пользователями)
Email-рассылка (временно не настроена)
- Количество email-адресов в базе на данный момент: 27
- Поставщик услуг: SendPulse (больше не работает с российскими пользователями)

Описание возможностей и документация

Всю релевантную на март 2022 года документацию (презентацию проекта и “спецификацию” к нему, избранное из обратной связи в секции комментариев под публикациями, демо-материалы возможностей сайта и Телеграм-бота, а также примеры внешнего вида email-рассылок Sendpulse) Вы можете найти в соответствующей папке на Яндекс-диске.

Сайт

Публикации в проекте «Китайская неделя» в период его активности выходили с периодичностью раз в неделю по субботам до декабря 2021 года включительно. Наполнение статей значительно варьировалось в зависимости от повестки контент-плана (помимо текстовой информации на русском языке, за всё время ведения блога на сайте были обнародованы эксклюзивные интервью, тематические книжные обзоры, культурологические мини-исследования, обучающие материалы, в том числе и в видеоформате, интерактивные викторины и информативные таблицы, мультимедийные презентации и многое другое), однако в целом содержание было полностью сосредоточено вокруг изучения и практического применения китайского языка и знакомства широкой аудитории с богатым культурным наследием Китая.

Телеграм-бот

Listening Helper Bot появился задолго до «Китайской недели», так давно, что я уже и не помню, когда – скорее всего, в летне-каникулярном промежутке между 2-м и 3-м курсами бакалавриата. Бот изначально был создан и размещён мной в мессенджере Telegram для личных нужд и нужд моих товарищей, изучавших китайский язык в университете в одной группе со мной. Долгое время хостился исключительно на локалхосте и включался по автозапуску вместе с ноутом или глубокой ночью по команде “Милена, включи бота плиз” в чате группы :) Когда я задумала «Китайскую неделю» и решила приурочить полезного бота к приятному блогу, предполагалось, что нагрузка слегка возрастёт из-за желающих потестить и поиграться, обычно набегающих в первое время после презентаций проектов, поэтому наш искусственно-интеллектуальный друг переехал жить на Heroku.

Принцип работы цифрового помощника предельно прост: пользователь после вывода подсказки от бота высылает в диалог аудиофайл с записью на китайском языке в формате .mp3 или .wav, а бот его транскрибирует посредством обращения к API соответствующего ИИ-инструмента, предлагаемого IBM Cloud. Платить компании IBM за использование их нейросети мне так и не пришлось, поскольку бесплатного лимита запросов хватало на всю компашку китаистов ФИЯРа с лихвой. Однако век благоденствия был недолог.

К сожалению, бот лишился своего ключевого функционала летом 2022 года вследствие деактивации учётных записей и доступа к API платформы IBM Cloud для всех разработчиков из Российской Федерации. Мой аккаунт просто взяли и навсегда заблокировали без права восстановления или изменения региона проживания в профиле. Первое время мной предпринимались попытки найти другого достойного поставщика услуг автоматической транскрибации, но, поскольку необходимость выполнять аудирования на китайском языке практически отпала вместе с окончанием бакалавриата, я плюнула и отложила эту часть проекта в долгий ящик. Теперь от бота остались ~~рожки да ножки~~, профиль в Телеграме, горстка кода и демонстрационный ролик из презентации проекта, с которым можно ознакомиться по ссылке.

Email-рассылка

Массовая рассылка оповещений по электронной почте с целью информирования всех заинтересованных лиц об обновлениях на сайте осуществлялась с email-адреса info@chineseweekly.xyz по субботам сразу после появления новых публикаций в проекте «Китайская неделя» в период его активности. Сбор адресов пользователей, желающих узнавать о выходе новых постов на сайте раньше всех, производился посредством специальной формы, размещённой во всех значимых и наиболее посещаемых разделах сайта (отдельная форма есть на заглавной странице и на страницах публикаций; также CTA (call-to-action)-кнопка, ведущая к форме, расположенной на главной странице, есть в правом верхнем углу в шапке сайта и отображается в любом его разделе, кроме административной панели).

Собранные email-адреса сохраняются в отдельную таблицу прикрученной к сайту базы данных SQLite. Полученный список почтовых ящиков периодически вручную выгружался из базы по мере наполнения и перенаправлялся в сервис рассылок SendPulse. Сервис SendPulse использовался мной не только непосредственно для массовой полуавтоматической рассылки оповещений, но и для конструирования макета (шаблона) тела письма, текст которого каждый раз сознательно модифицировался перед рассылкой под конкретную только что вышедшую публикацию.

В теории можно было бы поступить иначе и унифицировать содержание писем либо подготавливать их ещё до размещения статьи, настроив автоматическую отправку по триггеру (такая функция у сервиса была), чтобы по большей части избавиться от ручной работы, но малый масштаб проекта позволял осуществлять некоторые процессы в ручном режиме без особых проблем.

Стандартная визуальная структура оповещения о новой публикации (сверху вниз в “столбик”) включала в себя:

логотип издания;
заголовок с названием поста;
подзаголовок с приглашением на страницу публикации;
яркую CTA-кнопку, при нажатии которой можно получить доступ к статье;
заголовок блока, содержащего цитату из публикации;
непосредственно сам блок с выдержкой из поста (как правило, из его вводной части), позволяющей составить общее представление о содержании статьи;
благодарность читателю за интерес к деятельности издания;
кнопку отказа от дальнейшего получения рассылки.

Примеры того, как это могло бы выглядеть в Вашем почтовом ящике, можно посмотреть здесь.

Современный этап развития, редизайн логотипа и планы на будущее

Несмотря на все превратности судьбы (отключение российских банков от SWIFT и последовавшую вскоре за этим потерю оригинального домена вследствие трудностей с его продлением), история “Китайской недели” отнюдь не закончилась. В мае 2024 года я восстановила сайт из руин и натянула его на новый домен, а в июле в рамках тренировки навыков работы в Figma сделала пилотный редизайн логотипа, сохранив изначальный концепт — название сайта на китайском и окружающие его веточки бамбука.

Вполне вероятно, что дизайн ещё будет меняться и упрощаться, поскольку, стараясь отрисовать бамбук как можно более реалистичным, я устроила перебор с “тенюшками” и детализацией, а также изменила основной цвет лого, что впоследствии должно бы привести к радикальному изменению цветовой гаммы всего сайта (но пока что у меня не дошли руки даже банально перекрасить кнопочки, хе).

В любом случае, если я решу дальше продолжать развивать проект (а у меня таки есть ряд идей для новых постов, например, любопытное исследование о связи ранее опубликованной на сайте легенды о мифической китайской династии Ся с её творческой интерпретацией, фигурирующей в фантастической вселенной SCP Foundation), то мне предстоит свернуть горы:

полностью привести в порядок фронтенд, причесать и осовременить его, а также привести в соответствие с логотипом (либо посредством изменения цветовой гаммы сайта и добавления краткой версии лого, либо ещё одним редизайном последнего);
запастись подробным контент-планом на ближайший год;
починить бота в Телеграме, возможно, найти нового поставщика услуг или дообучить свою собственную модель (хотя изначальный функционал бота больше не актуален ни для кого из бывших пользователей, всегда можно обогатить его новыми фичами или вовсе переработать концепт);
заново прикрутить Google Analytics;
произвести небольшой апдейт подвала (заменить адреса криптокошельков действующими и убрать ссылки, ведущие на некоторые давно мной заброшенные соцсети, в том числе и запрещённые) и персональной информации в разделе «Об авторе»;
возобновить email-рассылку (эл.почта на домене уже создана заново, как говорится, пишите письма: info@chineseweekly.ru, а вместо SendPulse можно перейти на Unisender или RuSender).

Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация (moscowfolklore.ru)

Исходный код на GitHub

Сайт с длинным названием «Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация» был создан в 2022 году в целях демонстрации результатов одноимённой бакалаврской выпускной квалификационной работы и визуализации данных о музыкальных фольклорных мероприятиях в рамках городских фестивалей “Московская Масленица” и “Московский Сабантуй” с 2018 по 2020 гг. включительно. В раздел 2 “Московская Масленица” была перенесена часть материалов десктопного приложения «Фольклор 2.0», см.выше.

Сайт демонстрировался на научных конференциях и непосредственно на защите дипломной работы вместо мультимедийной презентации.

По итогам исследований в 11-м выпуске онлайн-журнала Совета молодых учёных ФИЯР МГУ “Moscow University Young Researchers Journal: Languages, Cultures And Area Studies” была опубликована статья:

Гусева М.А. Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация // Moscow University Young Researchers Journal: Languages, Cultures And Area Studies. - 2022. - №11

Состав проекта и стек технологий

Сайт
- Бэкенд: Python 3.9 (Flask 2.0.1)
- Фронтенд: HTML/CSS/JS(JQuery)
- База данных: SQLite
- ORM: SQLAlchemy
- Библиотека для создания интерактивных карт на Python: Folium 0.12.1
- Доменное имя:
  - Ранее: moscowfolklore.xyz (регистратор – Namecheap)
  - Сейчас: moscowfolklore.ru (регистратор – Спринтнеймс)
- Хостинг-провайдер: Спринтхост
- “Карта” сайта:
  - Заглавная страница с информацией об авторе в подвале
  - Раздел “О работе”, кратко раскрывающий цели и задачи исследования, а также дающий представление об используемой в работе авторской терминологии. Примерно соответствует введению дипломной работы
  - Раздел 1. “Общая информация”, содержащий несколько детализированных информационных блоков, не связанных между собой логически и частично не вошедших в итоговый текст выпускной работы, но важных для понимания её сути. В нижней части страницы располагается библиографический список, полностью укомплектованный ссылками на источники.
  - Раздел 2. “Московская Масленица”, посвящённый выявлению наиболее эффективных форм, методов и содержательных аспектов актуализации русской народной музыки в пространстве городского фестиваля “Московская Масленица”. Примерно соответствует главам I и II дипломной работы
  - Раздел 3. “Московский Сабантуй”, посвящённый выявлению наиболее эффективных форм, методов и содержательных аспектов актуализации татарской народной музыки в пространстве городского фестиваля “Московский Сабантуй”. Примерно соответствует главам III и IV дипломной работы
  - Раздел 4. “Выводы”, обобщающий все нюансы исследований, представленных в предыдущих разделах. Примерно соответствует заключению дипломной работы
  - Полноэкранный вариант интерактивной карты, размещённый на отдельной странице
  - Административная панель Flask-Admin, представляющая собой облегчённый визуальный интерфейс для CRUD-операций над базой данных, в которой хранятся 2 таблицы со сведениями о музыкальных фольклорных мероприятиях в рамках городских фестивалей “Московская Масленица” и “Московский Сабантуй”

Дополнительная документация

Сайт «Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация» вполне можно назвать “самодокументирующимся проектом”, поскольку полное представление о нём самом можно получить из текста и интерактивных материалов, расположенных на его же страницах. Беглого ознакомления с разделами в порядке их размещения на заглавной странице (или даже в произвольном порядке) вполне достаточно.

Для самых пытливых читателей всегда есть вариант просканировать глазами первоисточник – выпускную квалификационную работу 4 курса бакалавриата.

Интерактивная карта лингвистических экспедиций ОТиПЛ МГУ (milenchik.ru)

Исходный код на GitHub

Смысл и назначение сайта

Этот простенький одностраничник был собран исключительно для прикладных нужд экспозиции (стенда) кафедры теоретической и прикладной лингвистики филфака МГУ на фестивале “NAUKA 0+” в 2022 г. Ваша покорная слуга, которая в то время только поступила на 1 курс магистратуры чужого факультета и отчаянно пыталась влиться в новую для себя среду, как это обычно бывает, самовольно вызвалась участвовать в мероприятиях Фестиваля науки и сама же для себя изобрела боевую разнарядку. Окинув ясным взглядом уровень текущих познаний непосредственно в самой лингвистике и основываясь на ~~громадном жизненном опыте~~ уже имеющемся опыте работы с библиотекой Folium, я предложила сообществу активистов свои услуги по составлению интерактивной карты, где были бы представлены все мыслимые и немыслимые полевые исследования малых и не очень языков, проведённые нашей кафедрой за всю историю её существования с момента основания в 1960 году и по наши дни. Комьюнити восприняло идею с восторгом и тут же заранее подрядило меня представлять свою карту на празднике очно в качестве консультанта для всех интересующихся, демонстрировать её на электронных носителях информации (то есть на принесённых на площадку ноутбуках) и всячески её комментировать, пытаясь задержать случайно забредших гостей фестиваля на подольше. Так я изначально попала в одну команду с девочками, представляющими раздел “Экспедиции”, хотя ни в одну лингвистическую экспедицию я (пока) так и не съездила. Такой себе “сапожник без сапог”. Атмосферой, тем не менее, я прониклась будь здоров, ибо в процессе работы над картой перелопатила уйму “теории” (фотографий, описаний, дат и воспоминаний), поэтому “клиентов” (то есть потенциальных абитуриентов и прочих неофитов от лингвистики из числа посетителей выставки) обрабатывала на ура, в случае нужды в показаниях очевидцев отсылая любителей науки для продолжения душеполезного разговора к девочкам, которые сами ездили в труднодоступные места изучать редкие наречия.

Надо сказать, что карта, выражаясь языком интернет-маркетологов, дала неплохую такую конверсию: из числа тех, кто останавливал на ней свой взор и спрашивал разрешения “потыкать”, большинство по итогу вовлекались в интереснейший разговор и получали-таки от нас целый ушат занимательной лингвистики на свою голову, что напрямую говорит о том, что сайт пришёлся по вкусу не только моим коллегам, но и целевой аудитории – гостям. Это обстоятельство привело к тому, что интерактивная карта повторно демонстрировалась мной в слегка изменившейся компании девочек на фестивале “NAUKA 0+” уже в 2023 году.

Состав проекта и стек технологий

Самым трудным этапом и поводом для головной боли, как это водится хоть в машинном обучении, хоть в дата-аналитике, а хоть бы даже и в веб-разработке, были сбор разрозненных данных, их реструктуризация в .csv и приведение к формату, удобному для того, чтобы скормить их в Folium.

После завершения всех процедур с данными и получения готового HTML-файла я могла бы оставить конечный результат как есть и показывать его со своего ноутбука посредством банального открытия файла в браузере из Проводника, но, во-первых, мне нужно было где-то в ближайшей визуальной доступности разместить легенду карты, во-вторых, мне нужно было сделать своё творение широко доступным и лёгким в распространении, чтобы особо заинтересованному посетителю карту можно было беспроблемно сбросить просто ссылочкой в Телеграм, в-третьих, очень хотелось знать, что в случае форс-мажора, лишний раз меня не дёргая, эту карту на своём ноуте за меня покажет кто-то другой (хвала Небу, третья мотивация для создания сайта за два фестиваля ни разу не оправдала себя).

Поскольку человеческий мозг склонен многократно ходить уже сотни раз протоптанными тропинками, я выбрала, может быть, не самое изящное, но довольно эффективное решение и по старой доброй традиции сварганила этот аскетичный и минималистичный сайт-одностраничник с помощью того же технологического процесса, что и предыдущие два экземпляра, описанные в данном документе. Если что, домен оказался названным в мою честь по чистой случайности: он у меня как раз валялся без надобности, такой притягательно свободный, ничем не занятый. Достался он мне от хостинг-провайдера за бонусные баллы и был отложен под веб-книгу стихов собственного сочинения, но я в целях экономии времени и денег разместила на нём карту экспедиций – спервоначалу думала, что временно. Но ведь всем известно, что нет ничего более постоянного, чем временное.

Таким образом, на текущий момент технические характеристики проекта выглядят следующим образом:

Сайт
- Бэкенд: Python 3.9 (Flask 2.0.1)
- Фронтенд: HTML/CSS/JS(JQuery)
- Библиотека для создания интерактивных карт на Python: Folium 0.12.1
- Доменное имя: milenchik.ru (регистратор – Спринтнеймс)
- Хостинг-провайдер: Спринтхост
- “Карта” сайта:
  - Заглавная страница с интерактивной картой лингвистических экспедиций отделения теоретической и прикладной лингвистики МГУ с 1960 по 2022 г. включительно, а также информацией об авторе в подвале
  - Полноэкранный вариант интерактивной карты, размещённый на отдельной странице
  - Интерактивная фотогалерея с подписями, содержащая как редкие архивные карточки из 70-х, так и красочные фото из экспедиций нынешней эпохи (временно удалена, ожидает починки)

Первые шаги в сфере дизайна

В июле 2024 г. к моим сферам интереса довольно случайно добавился дизайн, хотя смежные побочные задачи я время от времени выполняла ещё со школы. В основном это было связано, конечно же, с вёрсткой фронтенда для моих веб-проектов, а также с оформлением групп ВКонтакте, созданием обложек, постов и несложных афиш в Crello (ныне VistaCreate), а также непродолжительной работой над факультетской газетой «Глаголица». Большинство имеющихся на данный момент наработок можно увидеть в специально созданном в целях демонстрации моего прогресса Телеграм-канале. Кое-что можно найти и на Behance.

Приятного ознакомления!

▲

Содержание документа:

Проекты в сфере NLP (обработки естественного языка)

Тестирование «понимания» моделью bert-base-chinese системы классификаторов («счётных слов») в китайском языке

Открыть в Google Colab:

Краткий ликбез для не-лингвистов!

Описание проекта

Узнать больше

Исследование изменения качества классификации текстов по тональности при добавлении в обучающую выборку нейтральных предложений

Открыть в Google Colab:

Работа над улучшением и развитием проекта Factura

Этапы работы:

Открыть в Google Colab:

Тестирование «способности» модели dardem/xlm-roberta-large-uk-toxicity к анализу тональности

Открыть в Google Colab:

Характеристики и практическая ценность проекта

Результаты работы

Дообучение моноязычной RoBERTa (youscan/ukr-roberta-base) для распознавания именованных сущностей

Открыть в Google Colab:

Характеристики и практическая ценность проекта

Результаты работы

Построение разделяющей поверхности для выборки с помощью самостоятельной реализации перцептрона Розенблатта на Python в Google Colab

Открыть в Google Colab:

Проекты в сфере разработки десктопных приложений

«Фольклор 2.0»

Назначение приложения

Характер собранных данных

Выбор фреймворка

Функционал приложения

Состав проекта и стек технологий

Расширенная документация и дополнительные материалы

Проекты в сфере веб-разработки

Еженедельное культурно-просветительское интернет-издание «Китайская неделя» (chineseweekly.ru)

Рождение идеи

Состав проекта и стек технологий

Описание возможностей и документация

Современный этап развития, редизайн логотипа и планы на будущее

Русская и татарская музыкальная фольклорная традиция в современной Москве: актуализация и репрезентация (moscowfolklore.ru)

Состав проекта и стек технологий

Дополнительная документация

Интерактивная карта лингвистических экспедиций ОТиПЛ МГУ (milenchik.ru)

Смысл и назначение сайта

Состав проекта и стек технологий

Первые шаги в сфере дизайна

Тестирование «понимания» моделью `bert-base-chinese` системы классификаторов («счётных слов») в китайском языке

Тестирование «способности» модели `dardem/xlm-roberta-large-uk-toxicity` к анализу тональности

Дообучение моноязычной RoBERTa (`youscan/ukr-roberta-base`) для распознавания именованных сущностей