Исследователи разработали простой в использовании инструмент, который позволяет специалистам по ИИ находить данные, соответствующие целям их модели, что может повысить точность и уменьшить предвзятость.
Чтобы обучить более мощным моделям больших языков, исследователи используют обширные коллекции наборов данных, которые объединяют разнообразные данные из тысяч веб-источников. Но поскольку эти наборы данных объединяются в несколько коллекций, важная информация об их происхождении и ограничениях на их использование часто теряется или перепутывается при перестановке. Это не только вызывает юридические и этические проблемы, но и может негативно сказаться на качестве обучения модели. Например, если набор данных неправильно классифицирован, то кто-то, обучающий модель машинного обучения для определенной задачи, может в конечном итоге непреднамеренно использовать данные, которые не предназначены для этой задачи. Кроме того, данные из неизвестных источников могут содержать искажения, из-за которых модель при развертывании может давать неверные прогнозы.
Чтобы повысить прозрачность данных, команда междисциплинарных исследователей из Массачусетского технологического института и других организаций провела систематический аудит более 1800 наборов текстовых данных на популярных сайтах хостинга. Они обнаружили, что более чем в 70 процентах этих наборов данных отсутствовала некоторая информация о лицензировании, в то время как около 50 процентов содержали информацию с ошибками.
Основываясь на этих данных, они разработали удобный инструмент под названием Data Provenance Explorer, который автоматически генерирует удобную для чтения сводку о создателях набора данных, источниках, лицензиях и допустимых видах использования.
«Эти типы инструментов могут помочь регулирующим органам и практикам принимать обоснованные решения о внедрении ИИ и способствовать его ответственному развитию», – говорит Алекс «Сэнди» Пентленд, профессор Массачусетского технологического института, руководитель группы Human Dynamics в MIT Media Lab и соавтор новой статьи, опубликованной в открытом доступе о проекте.
Обозреватель источников данных поможет специалистам по искусственному интеллекту создавать более эффективные модели, позволяя им выбирать обучающие наборы данных, соответствующие назначению их модели. В долгосрочной перспективе это может повысить точность моделей искусственного интеллекта в реальных ситуациях, например, для оценки заявок на получение кредита или ответа на запросы клиентов.
Для улучшения возможностей большой языковой модели исследователи часто используют метод, называемый тонкой настройкой для решения конкретной задачи, например, для ответа на вопросы. Для точной настройки они тщательно подбирают наборы данных, предназначенные для повышения производительности модели для этой конкретной задачи.
Исследователи Массачусетского технологического института сосредоточились на этих тонко настраиваемых наборах данных, которые часто разрабатываются исследователями, академическими организациями или компаниями и лицензируются для конкретных целей.
Когда краудсорсинговые платформы объединяют такие наборы данных в более крупные коллекции, которые специалисты-практики могут использовать для точной настройки, часть исходной информации о лицензиях часто теряется. Например, если условия лицензирования набора данных неверны или отсутствуют, кто-то может потратить много денег и времени на разработку модели, которую позже ему придется удалить, поскольку некоторые обучающие данные содержат личную информацию.
Чтобы начать это исследование, исследователи официально определили происхождение данных как совокупность источников, методов создания и лицензирования набора данных, а также его характеристик. После этого они разработали структурированную процедуру аудита, позволяющую отслеживать происхождение данных из более чем 1800 наборов текстовых данных из популярных онлайн-хранилищ. Обнаружив, что более 70% этих наборов данных содержат неопределенные лицензии, в которых отсутствует большая часть информации, исследователи провели обратную работу, чтобы заполнить пробелы. Благодаря своим усилиям они сократили количество наборов данных с такими лицензиями примерно до 30%. Кроме того, они обнаружили, что почти все создатели наборов данных были сосредоточены на глобальном севере, что может ограничить возможности модели, если она будет подготовлена для развертывания в другом регионе. Например, набор данных на турецком языке, созданный преимущественно жителями США и Китая, может не содержать каких-либо культурно значимых аспектов, объясняет Махари.
«Мы почти обманываем себя, думая, что наборы данных более разнообразны, чем они есть на самом деле», – говорит он.
Интересно, что исследователи также отметили резкий рост ограничений, наложенных на наборы данных, созданных в 2023 и 2024 годах, что может быть вызвано опасениями ученых о том, что их наборы данных могут быть использованы в коммерческих целях.
В дополнение к сортировке и фильтрации наборов данных на основе определенных критериев, этот инструмент позволяет пользователям загружать карточку происхождения данных, которая содержит краткий структурированный обзор характеристик набора данных.
В будущем исследователи хотят расширить анализ, чтобы изучить происхождение мультимодальных данных, включая видео и речь. Они также хотят изучить, как условия предоставления услуг на веб-сайтах, которые служат источниками данных, отражаются в наборах данных. По мере расширения своих исследований они также обращаются к регулирующим органам, чтобы обсудить свои выводы и уникальные последствия точной настройки данных для авторских прав.
Источник: https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830
ИИ и будущее разработки программного обеспечения
По мере расширения сферы применения искусственного интеллекта (ИИ) ИТ-лидеры изучают новые сценарии использования технологий, используемых на протяжении всего жизненного цикла разработки программного обеспечения (SDLC), говорится в новом исследовании под названием «ИИ в разработке программного обеспечения: изучение возможностей и неопределенностей», проведенном компанией OutSystems, мировым пионером, трансформирующим способы внедрения инноваций компаниями с помощью программного обеспечения, и KPMG, многонациональной сетью профессиональных услуг. 11.09.2024 63 0 0Технология ИИ может обнаруживать ранние признаки более 1000 заболеваний
Компьютерный алгоритм под названием MILTON анализирует результаты тестов пациентов, обычно собираемые врачами общей практики, чтобы обнаружить закономерности в данных и с высокой степенью уверенности предсказать диагноз заболевания много лет спустя. 11.09.2024 66 0 0ЕС поддерживает европейских разработчиков ИИ с помощью конкурса «фабрик ИИ»
Европейская комиссия выступила с призывом к созданию «фабрик искусственного интеллекта» для укрепления европейского лидерства в области надежного искусственного интеллекта. 11.09.2024 71 0 0Миссия SpaceX Polaris Dawn стартует для первого гражданского выхода в открытый космос
Компания SpaceX запустила миссию Polaris Dawn, чтобы совершить первый в истории гражданский выход в открытый космос и один из самых рискованных выходов в открытый космос, когда-либо предпринимавшихся. 11.09.2024 71 0 0