Представляя себе жизнь исследователя алгоритмов машинного обучения, вы можете подумать, что это довольно привлекательное занятие. Ведь, можно программировать беспилотные автомобили, работать рядом с известными техническими специалистами, а ваше программное обеспечение способно будет даже вызвать катастрофы для человечества. Так круто!?
Но, как показывает новый опрос исследователей, занимающихся проблемами анализа данных и машинного обучения, такие ожидания далеки от реальности, потому что самой большой проблемой в этих профессиях является довольно рутинная очистка «грязных данных».
Как показал опрос, проведенный научным сообществом Kaggle (который приобретен Google ранее в этом году), около 16 700 опрошенных из 1,3 миллиона членов сообщества чаще всего называли одними из самых больших барьеров в работе «грязные данные», за которыми следует отсутствие знаний в этой области.
Но что такое «грязные данные» и почему это такая проблема? Сегодня всем понятно, что данные являются горюче-смазочным материалом для цифровой экономики, но особенно это верно в таких областях, как машинное обучение.
Современные системы ИИ обычно учатся на примерах, поэтому, если демонстрировать им массу фотографий кошек, со временем ИИ начнет распознавать их основные характеристики. Такие компании, как Google и Amazon, смогли создать столь эффективные платформы распознавания образов и речи, потому что у них есть целые массивы данных от пользователей.
Но системы ИИ по-прежнему являются лишь компьютерными программами, которые могут вести себя как капризные дети, если вы нажмете не ту кнопку в неподходящее время. Вот и приходится людям контролировать массивы данных из сотен тысяч записей, отслеживать недостающие значения и удалять любые ошибки форматирования.
Сайт Kaggle посвящен проблемам теории и анализа данных, наиболее известен своими конкурсами, где компании публикуют конкретную задачу, связанную с данными, а затем платят человеку, который находит лучшее программное решение. (Деньги сами по себе невелики, но победа это хороший способ привлечь внимание потенциальных заказчиков.) И это означает, что сайт Kaggle также стал хранилищем интересных наборов данных для пользователей. Они варьируются от коллекции из 22 000 исследований для высшей школы до компьютерной томографии на предмет рака легких и множество фотографий рыб.
Все интересные новинки сегодня связаны с ИИ. Хотя для текстовой и цифровой информации более подходящими являются прежние методы. Поэтому, если вы планируете в ближайшее время перейти на машинное обучение или обработку данных, будьте готовы перейти к работе с электронными таблицами.
Комментарии
(0) Добавить комментарий