Портфолио Гусевой Милены Андреевны

Личные и учебные проекты

View on GitHub

Приветствую потенциальных работодателей и/или единомышленников, а также всех интересующихся на своей персональной странице! Здесь представлены все живые, действующие на данный момент и обновляющиеся с разной периодичностью проекты, так или иначе связанные с программированием (и частично дизайном) и выполненные мной лично.

Кратко обо мне:

Проекты в сфере NLP (обработки естественного языка)

Тестирование модели dardem/xlm-roberta-large-uk-toxicity для анализа тональности

Данный проект был выполнен в рамках домашнего задания по предмету “Машинный перевод” (преп. канд. физ.-мат. наук Сорокин А.А.). 1

Дообучение моноязычной RoBERTa (youscan/ukr-roberta-base) для распознавания именованных сущностей

Данный проект также был выполнен в рамках домашнего задания по предмету “Машинный перевод” (преп. канд. физ.-мат. наук Сорокин А.А.) и в некотором роде является логическим продолжением предыдущего проекта. 2

Тестирование “ПОНИМАНИЯ” МОДЕЛЬЮ bert-base-chinese СИСТЕМЫ КЛАССИФИКАТОРОВ (“СЧЁТНЫХ СЛОВ”) В КИТАЙСКОМ ЯЗЫКЕ

Данный проект был выполнен в рамках домашнего задания по предмету “Компьютерная морфология и синтаксис” (преп. канд. физ.-мат. наук Сорокин А.А.)

Львиная доля известных на данный момент языков мира так или иначе располагает какими-либо средствами семантической категоризации имён существительных. Например, носителям русского, французского или немецкого языков концепт того, что существительные могут быть распределены по своего рода группам в зависимости от их семантического наполнения (и/или диахронических факторов), привычен, если реализуется в виде нескольких родов, и кажется экзотическим, если это разнообразные именные классы в количестве более двадцати или особые морфемы-классификаторы. Но на самом деле между всеми этими явлениями куда больше общего, чем можно полагать на первый взгляд.

Все описанные современной лингвистикой средства категоризации имён в общем случае подразделяются на именные классы и классификаторы.

Ноутбук обильно снабжён схемами и мемами

3

Исследование изменения качества классификации текстов по их тональности при добавлении в обучающую выборку нейтральных предложений

Данный проект был выполнен мной совместно с моей одногруппницей Валерией Богдановой в рамках спецкурса “Методы машинного обучения для решения проектных задач компьютерной лингвистики” (организаторы — МГУ и фонд “Интеллект”, преп. Студеникина К.А.) и изначально был рассчитан на двоих участников. Преподаватель для удобства разделила требования к заданию на две части, которые можно выполнять в индивидуальном порядке последовательно друг за другом — мне оставалось лишь сделать выбор в пользу одной из них. Поскольку мне всегда нравилось работать непосредственно с данными, да и задача уровня “просто дообучить модель и посмотреть, что получится” показалась мне чуть менее интересной, я остановилась на первой части, суть которой состояла в том, чтобы препарировать 2 совершенно разных датасета для анализа тональности (“Emotion Classification in Russian: Feature Engineering and Analysis” и CEDR), привести их к единому формату и “подмешать” в последний из упомянутых датасетов нейтральные примеры из первого, поскольку в CEDR такая категория отсутствует. Кроме того, подготовить для коллеги по проекту надо было не один датасет, а целых 9, содержащих в себе разное количество нейтральных примеров.

4

Работа над улучшением и развитием проекта Factura

Данный вид работ выполнялся в мини-группе из 4-х человек, включая меня, Валерию Богданову, Анну Жуковскую и Алсу Закирову, под руководством нашего преподавателя Гращенкова П.В. (доцент, д.филол.н.) в рамках предусмотренной учебным планом проектной деятельности (предмет “Проектные исследования в фундаментальной и прикладной лингвистике”).

Factura – система автоматического извлечения фактов из текстов на основе правил, задаваемых в YAML-файлах (примеры можно посмотреть здесь). Правила имеют свой особый синтаксис и требуют знания базовой лингвистической терминологии для понимания.

5

Построение разделяющей поверхности для выборки с помощью самостоятельной реализации перцептрона Розенблатта на Python в Google Colab

Данная мини-работа была выполнена в рамках домашнего задания по предмету “Компьютерная морфология и синтаксис” (преп. канд. физ.-мат. наук Сорокин А.А.). Поскольку на момент её создания я только начинала погружаться в безграничный и вечно меняющийся мир машинного обучения (в частности NLP), то сперва мне было довольно сложно, но по итогу творческий азарт вкупе с уверенным разгрызанием гранита науки принесли мне море удовольствия!

Проекты в сфере разработки десктопных приложений

Как известно, на Python в наше время можно создать практически что угодно (начиная приложениями под Android на Kivy и заканчивая десктопными кроссплатформенными Франкенштейнами на Tkinter и PyQt). Далеко не факт (мягко говоря), что это “что угодно” будет отличаться эффективностью расходования ресурсов компьютера, удобством использования или приятным дизайном, но когда выбор доступных тебе инструментов не так разнообразен, искушение достать швейцарский нож и поиграться с ним весьма велико.

7

Проекты в сфере веб-разработки

Стоит отметить, что 2 из 3-х представленных ниже проектов (все, кроме интерактивной карты лингвистических экспедиций, изначально размещённой на запасном российском домене, когда-то полученном от хостинг-провайдера в подарок за бонусные баллы и валявшемся без надобности) в своё время пострадали из-за отключения российских банков от системы SWIFT, поскольку домены для них (оба в зоне .xyz) были куплены у регистратора Namecheap из США. Когда настало время продлевать домены, я уже не могла оплатить их без значительных танцев с бубном, криптой или виртуальными иностранными картами. Сайты некоторое время пролежали в руинах небытия, откуда я потихоньку начала извлекать их ближе к текущему моменту.

Еженедельное культурно-просветительское интернет-издание «Китайская неделя»

Рождение идеи

Работа над проектом началась в 2021 году, когда я училась на ФИЯРе на 3-м курсе бакалавриата, а в нашем штатном расписании появился предмет под названием “Кафедральный практикум”. Кафедральный практикум представлял собой разновидность групповой проектной деятельности, целью которой стояла разработка чего-то общественно полезного и связанного с регионоведением, культурологией или межкультурной коммуникацией. Можно сказать, что нам предоставлялась свобода действий (в рамках разумного): одна из групп даже выдумала с потолка ничем физически не обеспеченный и принципиально нереализуемый силами трёх студентов проект постройки этнодеревни в Ленобласти. Подавляющее число групп, однако, обошлось чем-то более простым, наподобие тематических Телеграм-каналов, групп ВК и страничек в на тот момент ещё не запрещённом Нельзяграме. Кажется, будто какая-то одна пара девчонок точно выкатила страшный как атомная война сайт на Тильде, но за давностию лет всего и не упомнишь.

В студенческих коллективах, на мой взгляд, в большинстве случаев о командной работе говорить не приходится. За 4 года обучения на ФИЯРе участники мини-групп в основном либо садились мне на шею и скидывали на меня ответственность, либо, напротив, брали всю инициативу в свои руки и не давали вставить ни слова. Надо отметить, что к моменту поступления в магистратуру народ, по всей видимости, духовно подрастает, поэтому на ОТиПЛе мой опыт командного взаимодействия был в большей степени положительным, но это к теме не относится. На ФИЯРе же спокойный, взвешенный, уравновешенный диалог взрослых людей и равномерное распределение обязанностей были бесценной редкостью, посему чаще всего, если такая возможность предоставлялась, я предпочитала быть волком-одиночкой. На этот раз мне разрешили делать индивидуальную работу в порядке исключения, чем я и воспользовалась.

В связи со свежевозникшей в ту пору гиперфиксацией на счётных словах (классификаторах) в китайском языке моей первой смелой идеей было провести что-то вроде психолингвистического эксперимента с китайскими студентами нашего факультета и проверить, как владение языком, в котором присутствует это грамматическое явление, отражается на способности классифицировать и разделять “по кучкам” не только слова, но и объекты реального мира. Поскольку на тот момент я не была знакома с психолингвистической методологией и не смогла разработать достоверную с научной точки зрения схему проведения эксперимента, затея была отложена до лучших времён.

Однако к тому моменту я уже кое-что смыслила в веб-разработке, активно нарабатывала навыки программирования и ещё только начала интересоваться машинным обучением и обработкой естественного языка, поэтому захотела взять что-то связанное с предыдущей темой и обучить свою нейросетку для китайского языка (по иронии судьбы, часть прочитанных в то время научных статей легла в основу моей грядущей магистерской диссертации). Чуть-чуть помучавшись, я окончательно заплутала и запуталась в хитросплетениях своих начинаний, а впоследствии осознала, что моих знаний в данной сфере пока недостаточно.

Тогда в моей голове родилось спасительное светлое озарение: почему бы мне не сделать свой собственный интерактивный сайт о Китае и китайском языке, чтобы заодно потренировать навыки написания фронтенда и бэкенда? Как выяснилось позже, именно этому, третьему замыслу суждено было воплотиться в реальность и быть доведённым до конца. Так на свет появилось моё еженедельное культурно-просветительское интернет-издание «Китайская неделя», способствующее преодолению пропастей и наведению мостов между двумя уникальными и дружественными культурами: русской и китайской.

Состав проекта и стек технологий

Современный этап развития, редизайн логотипа и планы на будущее

В июле 2024 года, восстановив сайт из руин и натянув его на новый домен, в рамках тренировки навыков работы в Figma я сделала пилотный редизайн логотипа “Китайской недели”, сохранив изначальный концепт — название сайта на китайском и окружающие его веточки бамбука.
Вполне вероятно, что дизайн ещё будет меняться и упрощаться, поскольку, стараясь отрисовать бамбук как можно более реалистичным, я устроила перебор с “тенюшками” и детализацией, а также изменила основной цвет лого, что впоследствии должно бы привести к радикальному изменению цветовой гаммы всего сайта (но пока что у меня не дошли руки даже банально перекрасить кнопочки, хе).
В любом случае, если я решу дальше продолжать развивать проект (а у меня таки есть ряд идей для новых постов, например, любопытное исследование о связи ранее опубликованной на сайте легенды о мифической китайской династии Ся с её творческой интерпретацией, фигурирующей в фантастической вселенной SCP Foundation), то мне предстоит свернуть горы:

  1. полностью привести в порядок фронтенд, причесать и осовременить его, а также привести в соответствие с логотипом (либо посредством изменения цветовой гаммы сайта и добавления краткой версии лого, либо ещё одним редизайном последнего);
  2. запастись подробным контент-планом на ближайший год;
  3. починить бота в Телеграме, возможно, найти нового поставщика услуг или дообучить свою собственную модель (хотя изначальный функционал бота больше не актуален ни для кого из бывших пользователей, всегда можно обогатить его новыми фичами или вовсе переработать концепт);
  4. заново прикрутить Google Analytics;
  5. произвести небольшой апдейт подвала (заменить адреса криптокошельков действующими и убрать ссылки, ведущие на некоторые давно мной заброшенные соцсети, в том числе и запрещённые) и персональной информации в разделе «Об авторе»;
  6. возобновить email-рассылку (эл.почта на домене уже создана заново, как говорится, пишите письма: info@chineseweekly.ru, а вместо SendPulse можно перейти на Unisender или RuSender).

https://moscowfolklore.ru/

https://milenchik.ru/

Первые шаги в сфере дизайна

В июле 2024 г. к моим сферам интереса довольно случайно добавился дизайн, хотя смежные побочные задачи я время от времени выполняла ещё со школы. В основном это было связано, конечно же, с вёрсткой фронтенда для моих веб-проектов, а также с оформлением групп ВКонтакте, созданием обложек, постов и несложных афиш в Crello (ныне VistaCreate), а также непродолжительной работой над факультетской газетой «Глаголица». Большинство имеющихся на данный момент наработок можно увидеть в специально созданном в целях демонстрации моего прогресса Телеграм-канале. Кое-что можно найти и на Behance.

Приятного ознакомления!