abusesaffiliationarrow-downarrow-leftarrow-rightarrow-upattack-typeburgerchevron-downchevron-leftchevron-rightchevron-upClock iconclosedeletedevelopment-povertydiscriminationdollardownloademailenvironmentexternal-linkfacebookfiltergenderglobegroupshealthC4067174-3DD9-4B9E-AD64-284FDAAE6338@1xinformation-outlineinformationinstagraminvestment-trade-globalisationissueslabourlanguagesShapeCombined Shapeline, chart, up, arrow, graphLinkedInlocationmap-pinminusnewsorganisationotheroverviewpluspreviewArtboard 185profilerefreshIconnewssearchsecurityPathStock downStock steadyStock uptagticktooltiptwitteruniversalityweb

Эта страница недоступна на Русский и отображается на English

Статья

23 Май 2023

Автор:
Gabriel Nicholas and Aliya Bhatia, Center for Democracy & Technology

New report highlights the shortcomings of large language models in analysing non-English content

"Lost in Translation: Large Language Models in Non-English Content Analysis", 23 May 2023.

...A new report from CDT examines the new models that companies claim can analyze text across languages. The paper explains how these language models work and explores their capabilities and limits...

...In the past, it has been difficult to develop artificial intelligence (AI) systems — and especially large language models — in languages other than English because of what is known as the resourcedness gap. This gap describes the asymmetry in the availability of high quality digitized text that can serve as training data for a model. English is an extremely highly resourced language, whereas other languages, including those used predominantly in the Global South, often have fewer examples of high quality text (if any at all) on which to train language models...

...while multilingual language models show promise as a tool for content analysis, they also face key limitations:

  1. Multilingual language models often rely on machine-translated text that can contain errors or terms native language speakers don’t actually use. 
  2. When multilingual language models fail, their problems are hard to identify, diagnose, and fix.
  3. Multilingual language models do not and cannot work equally well in all languages.
  4. Multilingual language models fail to account for the contexts of local language speakers.

These shortcomings are amplified when used in high risk contexts. If these models are used to scan applications for asylum for example, errant systems may limit a users’ ability to access safety. In content moderation, misinterpretations of text can result in takedowns of posts which may erect barriers to information, particularly where not a lot of information in a particular language is available...

...Governments, technology companies, researchers, and civil society should not assume these models work better than they do, and should invest in greater transparency and accountability efforts in order to better understand the impact of these models on individuals’ rights and access to information and economic opportunities. Crucially, researchers from different language communities should be supported and be at the forefront of the effort to develop models and methods that build capacity for tools in different languages...

Информация о конфиденциальности

Этот сайт использует cookie и другие технологии веб-хранения. Вы можете указать свои параметры конфиденциальности ниже. Изменения вступят в силу немедленно.

Для получения дополнительной информации о нашем использовании веб-хранилища, пожалуйста, обратитесь к нашему Политика использования данных и файлов cookie

Strictly necessary storage

ON
OFF

Necessary storage enables core site functionality. This site cannot function without it, so it can only be disabled by changing settings in your browser.

Аналитические файлы cookie

ON
OFF

Когда вы заходите на наш веб-сайт, мы используем Google Analytics для сбора информации о вашем посещении. Принятие этого файла cookie позволит нам получить более подробную информацию о вашей навигации на сайте и улучшить то, как мы отображаем информацию. Вся аналитическая информация является анонимной, и мы не используем ее для вашей идентификации. Google предоставляет opt-out Google Analytics для всех популярных браузеров.

Рекламные файлы cookies

ON
OFF

Мы делимся новостями о бизнесе и правах человека через платформы третьих сторон, включая социальные сети и поисковые системы. Эти файлы cookie помогают нам понять эффективность этих реклам.

Ваши настройки конфиденциальности для этого сайта

Этот сайт использует файлы cookie и другие технологии веб-хранения, чтобы улучшить ваш опыт, помимо работы необходимых основных функций.