В MIT создали алгоритм для "обновления" Википедии

Ученые Массачусетского технологического института (MIT) разработали алгоритм, позволяющий автоматизировать правки в Википедию. Система поможет редакторам отслеживать несоответствия в материалах, мониторить обновления и контролировать единообразие стиля.

Википедия — один из столпов Всемирной сети. Согласно данным исследований SimilarWeb, ресурс входит в пятерку самых посещаемых сайтов в мире. Статьи Википедии написаны на более чем 300 языках, а общее количество материалов превышает 38 млн.

Интересно, что при таком масштабе, Википедия до сих пор остается относительно небольшой компанией. Официальный штат фонда Википедиа — не более 300 человек. В их задачи входит разработка движка, отслеживание истории изменений и контроль за общим порядком. Как это ни удивительно, но до сих пор большая часть этой работы делалась вручную.

Разработка MIT призвана развязать руки редакторам. В Институте создали систему генерирования текста, которая будет проверять все обновления в статьях, автоматически править стиль и выявлять несостыковки.

В основе алгоритма лежит метод, позволяющий выявлять противоречия между двумя текстовыми элементами, а затем объединять "шероховатости" в единую конструкцию. В качестве входных данных система берет "устаревший" кусок текста и сравнивает его с новым отрывком. Затем заменяет исходные факты на новые, сохраняя исходный стиль и грамматику.

Для человека в такой задаче нет ничего сложного. Но для искусственного интеллекта и его разработчиков достижение приемлемого результата означает настоящую победу.

"На сегодняшний день разработано немало ботов, предназначенных для автоматического редактирования Википедии. Но их проблема заключается в том, что боты просто устраняют акты вандализма или, в лучшем случае, меняют куски текста по заранее определенным шаблонам, — говорит Дарш Шах, аспирант Лаборатории информатики и искусственного интеллекта (CSAIL) MIT. — Наша модель решает куда более сложную проблему: она работает с фрагментом неструктурированной информации и редактирует статью в соответствии с "человеческой" лексикой. Такие задачи требуют иного подхода в разработке — нужно не просто прописать системе правила, а создать модель, способную определить аргументы в двух противоречивых частях и создать из них связный текст".

В MIT считают, что перспективы использования разработки не ограничиваются Википедией. Модель пригодится и в других кейсах: например, для отладки системы по выявлению фейковых новостей. Как пояснил соавтор проекта и аспирант CSAIL Талль Шустер, алгоритм может использоваться для автоматической генерации предложений в обучающем дата-сете, который "тренирует" модель выявлять поддельные факты.

Источник: https://news.mit.edu/2020/automated-rewrite-wikipe...

Задать вопрос
Заполните форму, и наши эксперты ответят вам