- Борьба

Что машинное обучение думает о гендере и письме

Технологии, которые мы используем для генерации текста — от автоответчиков до статей — изучают шаблоны в наборе текстов, которые мы им даем.
Внизу моей страницы в Википедии есть тег, который идентифицирует меня как «Американскую писательницу». Если бы я был мужчиной, отметка «Американский писатель-мужчина». Мой пол не должен иметь ничего общего с моей карьерой, и все же там он сидит, привязанный к моей профессии, как будто мы с писателями-мужчинами работаем в разных областях.

Но можно легко привести циничный аргумент, который мы делаем.

Исследования показали, что книги для женщин стоят дешевле, чем для мужчин, художественная литература для женщин реже рассматривается и реже публикуется в литературных журналах. Даже книги о женщинах с меньшей вероятностью выигрывают призы, чем книги о мужчинах. Поля, через которые проходят мужчины и женщины, действительно различны: на одном из них гораздо больше неровностей и выбоин.

В последние несколько месяцев, когда я смотрел на большие текстовые корпуса, я часто думал о гендерном неравенстве в мире письма. Я хотел собрать запрещенные книги мужчин и женщин для проекта машинного обучения (я планировал обучить две модели генерации текста на разных корпусах и поместить их в разговор), но хотя запрещенные тексты мужчин довольно легко найти в публике домен, запрещенные тексты женщинами оказалось намного труднее найти.

Когда я искал запрещенные тексты в Project Gutenberg, на котором размещено более 58 000 текстов, которые можно бесплатно скачать, я начал задумываться, сколько книг — запрещенных или нет — были женщины. Одна оценка была получена из Викиданных, где информация, найденная на страницах Википедии, такая как имя человека, пол или род деятельности, хранится таким образом, чтобы его можно было прочитать на компьютере. Я нашел около двенадцати тысяч человек (писателей, редакторов, иллюстраторов, переводчиков), которые внесли свой вклад в корпус.

В этом подмножестве число мужчин превышает число женщин более чем в 5 раз. Хотя пол не является двоичным, я смотрю на число мужчин и женщин, потому что это доступная или оцениваемая информация с использованием основанных на имени инструментов прогнозирования пола.

Я пришел в Project Gutenberg, чтобы найти запрещенные книги для своих ботов, но я начал задаваться вопросом, что они узнают о написании, если их обучат всему этому корпусу. Я прочитал ряд исследований, в которых выявляются закономерности в языке, связанные с тем или иным полом.

Исследователи из университетов Аалто и Хельсинки сравнили художественную литературу мужчин и женщин в Британском национальном корпусе и обнаружили, что мужчины используют множественное число от первого лица (мы, мы), в то время как женщины используют второе лицо (вас и ваших) чаще. Мужчины злоупотребляют определенными существительными (например, «мужчина»), женщины — некоторыми глаголами (например, «думал») и усилителями (например, «много» или «очень»). Исследователи отмечают, что такие различия могут быть связаны с полом предполагаемой аудитории, а не автора, но это различие быстро становится темным.

Что делает книгу подходящей для того или иного пола? Когда на презентацию автора Шеннон Хейл были приглашены только девочки — позже учитель сказал Хейл, «администрация разрешила только ученикам средней школы выходить из класса на собрание», она отметила:

«Я говорю о книгах и письме, чтении, отклонениях и прохождении по ним, о том, как придумывать идеи для историй. Но поскольку я женщина, потому что в некоторых моих книгах на обложке изображены девушки, потому что в некоторых из моих книг в названии написано «принцесса», я отмечена как «только для девочек». Однако, писатели-мужчины у которых на обложках мальчики разговаривают со всей школой ».

Если используемый нами язык отражает то, что от нас ожидают, или если женщины ожидают, что книги будут читать только женщины, то тот факт, что определенные слова чаще используются тем или иным полом, поражает меня как симптом системного предубеждения.

Например, когда я провел несколько эссе, которые я написал о технологиях с помощью двух разных систем гендерного прогнозирования, и оба были идентифицированы как мужские. Я подозреваю, что в тренировочном корпусе существует дисбаланс, и меня назвали человеком, потому что система узнала из работы, которую она знала, что люди используют такие слова и фразы, как «машинное обучение» и «необъективные данные».

Что делает книгу * подходящей * для того или иного пола? НАЖМИТЕ НА ТВИТ

Я нашел более двух миллионов слов литературы, которую я назвал «запрещенным человеком», просто перейдя по ссылкам из одного списка запрещенных книг. Поработав несколько часов, я собрал около 800 000 слов запрещенной женской литературы в открытом доступе. Я хотел по крайней мере миллион слов для каждого бота. Я решил пересмотреть свой первоначальный план машинного обучения и вместо этого взглянуть на современную работу.

Я обратился к Smashwords, где некоторые книги продаются, а другие могут быть свободно загружены, в зависимости от пожеланий автора. На этом сайте гендерная перенасыщенность и нехватка были противоположны тем, с которыми я сталкиваюсь

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *