Сарказм иногда является неуловимым понятием даже для некоторых людей. Благодаря интересным лингвистическим свойствам, обнаружение сарказма в последние несколько лет приобрело популярность в исследовательском сообществе, занимающемся обработкой естественного языка для глубокого машинного обучения языковых моделей. Однако задача прогнозирования сарказма в тексте остаётся пока очень сложной для компьютера, а понимание того, что делает предложение саркастичным, ограничено. Специалисты пробуют использовать либо крупномасштабные наборы данных, собранные с помощью наблюдения на основе тегов, либо небольшие наборы данных, аннотированные вручную. Первая категория зашумлена, с точки зрения меток и языка, тогда как последняя категория наборов данных не имеет достаточного количества экземпляров для надёжного обучения моделей глубокого обучения, несмотря на наличие высококачественных меток.
В каждом типе сценария интерпретируемость сарказма может быть ограничена отсутствием доступа к большим и качественным наборам данных по следующим причинам:
1. Информация из социальных сетей собирается с использованием контроля на основе хэштегов. Но люди в соцсетях зачастую используют очень неформальный язык в общении, что приводит к скудности словарного запаса, а для многих слов предварительно обученные встраивания недоступны. Наконец, многие сообщения могут быть ответами на другие сообщения, и для обнаружения сарказма в таких случаях требуется наличие контекстной информации. Таким образом, системы глубокого машинного обучения, использующие эти типы наборов данных, сталкиваются с проблемами сразу в нескольких аспектах, при обнаружении реальных саркастических элементов, из-за присутствия словарного шума.
2. Наборы данных, помеченные вручную, обычно содержат ограниченное количество саркастических случаев из-за высоких затрат, связанных с получением меток качества. Это происходит потому, что понимание сарказма у разных людей разное, и во многих случаях согласие может быть низким. Платформы глубокого обучения, обученные с использованием этих наборов, остаются недостаточно мощными и, таким образом, не способны раскрыть реальные саркастические представления.
3. Доступен ограниченный качественный анализ моделей, обученных на ранее доступных наборах данных, чтобы продемонстрировать, что изучают модели и в каких случаях они могут точно распознавать сарказм. Несомненно, что для его обнаружения требуется понимание здравого смысла, без которого модель может не понять, что это вообще такое. А может и просто не уловить некоторые дискриминационные лексические сигналы.
Из-за всех этих ограничений трудно дать понять искусственному разуму признаки, по которым он может отличить обычное повествование от саркастического высказывания, а ещё сложнее интерпретировать неуловимую концепцию построения модели. Чтобы преодолеть ограничения, связанные с маркировкой и языковым шумом из социальных сетей, а также низкомасштабный характер других наборов, размеченных вручную, учёные попытались начать представление с заголовков новостей. Для сравнения в построении модели были выбраны два сайта — один с обычными новостями/заголовками, а в другом почти все новости поданы с известной долей сарказма. На основе данных со второго сайта учёные попытались составить саркастическую часть лингвистического корпуса для ИИ.
Изначально искусственный интеллект не замечал какого-либо непосредственного различия слов внутри каждой категории, что может быть связано с тем, что сарказм определяется в контексте и не обязательно должен использовать определённые слова. Поскольку заголовки новостей пишутся профессионалами в формальной манере, в них нет орфографических ошибок или неформального использования, как в наборах данных, собранных из социальных сетей. Это уменьшает разреженность словарного запаса, а также увеличивает вероятность обнаружения вложений предварительного обучения, для повышения производительности. А поскольку единственной целью второго сайта является публикация саркастических новостей, то центр обработки данных получает метки очень высокого качества, и в относительно больших количествах. В этом смысле качество меток контролируется, в отличие от наборов с автоматическими аннотациями.
В наборах данных социальных сетей саркастические сообщения не могут быть самостоятельными, поскольку массив может включать сообщения, которые отвечают на другие сообщения, которые не являются частью этого массива. Чтобы извлечь ценную информацию собранного набора данных заголовков новостей, разработчикам пришлось настроить эту архитектуру, чтобы исключить путь моделирования пользовательского контекста, поскольку упоминание сарказма в этом наборе зависело не от авторов, а скорее от текущих событий и общеизвестных знаний. ИИ может выборочно подчёркивать, ориентируясь на некоторые маркеры-признаки, одновременно несоответствующие словосочетания (слова с контрастирующими подразумеваемыми смыслами). Например, в предложении «гражданская активность в большинстве стран сосредоточена вокруг угнетения других людей», внимательная модель искусственного интеллекта может подчеркнуть наличие «гражданской активности» и «угнетения других людей», чтобы классифицировать это предложение как саркастическое. Но в большинстве случаев этот признак не сработает.
Но люди всё ещё бьются в попытках разработать эффективный инструмент обработки естественного языка, который может, опираясь на семантику, точно обнаруживать саркастические части текста и перефразировать их в несаркастической форме, не меняя общего смысла. Для этого необходимо вычислить роль различных функций, для обнаружения сарказма и сделать удаление определённых атрибутов, по более интуитивным и точным маркерам. Разработчики исследовали роль аффективных характеристик (таких как человеческие эмоции счастья, печали, удивления и т. д.) в компьютерном обнаружении и их чётком распознавании. Но пока эффективного вычислительного обнаружения скрытых эмоций из текста не произошло.
Следует ещё принять во внимание, что использование языковых моделей для различных языков будут использовать разные алгоритмы. А язык повествования, речевые обороты, арго, фразеологизмы и т.п., будут отличаться очень сильно. Поэтому, даже если англоязычная модель сможет эффективно распознавать сарказм в американских СМИ, то совсем не факт, что она сможет распознать саркастические шутки в «тонком английском юморе». Другие языки, такие как русский, японский или китайский, изобилующие иносказаниями, вообще достаточно сложны для построения языковой модели с такими функциями распознавания. Поэтому модели глубокого обучения могут пока только надёжно запоминать выразительные саркастические реплики из текста, если им указать на них явно, дополнив различными вариациями использования в определённом контексте.