Data scientist: современная профессия будущего
- 06.03.2021
Спрос на информацию, полученную в результате анализа данных, никогда не был таким высоким, как сейчас. Развитие технологий позволяет собирать, анализировать, обрабатывать и получать новую качественную информацию. Анализ больших данных используют корпорации, частные компании и государственные учреждения. Сегодня специалисты data science востребованы во многих отраслях, в т. в области финансов, продаж и маркетинга. Что на самом деле представляет собой эта профессия и какие возможности она открывает?
Кто такой Data Scientist и чем он занимается?
Люди, занимающиеся наукой о данных, в последние годы были одними из самых востребованных специалистов во многих отраслях. SkillFactory предлагает комплексное обучение профессии аналитика данных, которое многим поможет изменить сферу деятельности и найти себя в новой отрасли. Когда дело доходит до этого, обычно поднимается вопрос вознаграждения или самих эффектов подобной технологии, таких как система распознавания лиц. Намного реже обсуждаются навыки, которые необходимо приобрести, чтобы попасть в эту профессию.
В последние годы такие специалисты, как Data Scientist делают головокружительную карьеру на ИТ-рынке. Data Scientist востребованы во все большем количестве команд, и спрос на них постоянно растет. О том, кто такой Data Scientist и чем он занимается, написано много. Вкратце — это человек, совмещающий роль программиста (часто распределенных систем, таких как Hadoop) и аналитика данных, умеющего работать со статистикой. В связи с тем, что пока это были довольно разные профессии, Data Scientist — редкий и очень ценный гибрид.
Какими компетенциями и навыками должен обладать специалист по анализу данных?
Прежде всего, Data Scientist должен уметь программировать. Это то, что отличает его от традиционного аналитика данных — его решения должны быть запрограммированы на автоматическую работу. Этот навык полезен, например, при загрузке данных из Интернета, либо через специализированный API или путем парсинга обычных веб-сайтов. Конечно, данные можно получить и другими способами — из файлов (самые популярные форматы здесь XLS, CSV, JSON, XML), а также из баз данных.
Другое использование — автоматическая очистка данных: написание кода, который удалит ненужные пробелы и запятые, но также сможет сравнить две записи из двух разных баз данных и указать те, которые описывают один и тот же объект (например, покупателя или продукт).
Здесь также нельзя забывать о целой отрасли больших данных. При таком большом количестве данных, которые компании могут собирать сегодня (каждый клик на веб-сайте, каждая покупка в магазине), каждое решение, даже в области машинного обучения, должно разрабатываться в контексте эффективности и планирования внедрения производства. Это невозможно сделать в отрыве от программирования только на бумаге. Ведущими языками в области Data Science являются: R и Python (а также библиотеки Numpy и Pandas). Из-за частой работы с базами данных язык запросов SQL также является необходимой компетенцией Data Scientist.
Статистика и машинное обучение
Еще один навык, без которого сложно представить человека, занимающего должность Data Scientist, — это статистика. Ключевые слова, такие как нулевая гипотеза, p-значение и доверительные интервалы, не должны ставить в тупик «специалиста по данным». Именно благодаря этому разделу математики можно сказать, существенно ли различаются результаты двух разных подходов к проблеме (например, двух методов машинного обучения), и если да, то какой из них дает лучшие результаты и насколько.
Другой пример — проверка того, действительно ли рекламная кампания привела к лучшим результатам продаж или незначительные различия были просто совпадением, и нет математической основы для подтверждения эффективности рекламы.
Еще одна часть статистики, которая также полезна на практике, — это исследовательский анализ данных. Речь идет о возможности рассчитать:
- минимум,
- максимум,
- среднее значение,
- медиану,
- стандартное отклонение,
а также анализировать и делать выводы из значений, полученных таким образом. Примером может служить расчет статистики для возраста клиентов или размера их заказов (учитывается в приобретенных продуктах или их стоимости).
Data Scientist должен продемонстрировать довольно много навыков. Отчасти это связано с тем, что должность сочетает в себе навыки двух разных профессий: программиста и специалиста по данным.(или статистике), что требует высокого уровня компетенции в обеих этих областях.