Все о data science: описание, особенности, как стать специалистом
Содержание:
- «Введение в Data Science и машинное обучение» от Института биоинформатики
- Как стать Data Scientist с нуля?
- Профессия Data Scientist от Skillbox
- Робототехника
- Какие задачи решает?
- Образование в области Data Science: ничего невозможного нет
- Специализация Дата-сайентист
- Где учиться на Data Scientist — специалиста по большим данным
- Machine Learning Engineer (MLE)
- Работа data сайентистом
- Место работы
- Кто такой Data Scientist и чем он занимается?
- Какие ошибки делают новички
- Решаем задачи целиком
- Основные термины
- Заключение
«Введение в Data Science и машинное обучение» от Института биоинформатики
Длительность курса: 30 уроков.
Формат обучения: видеоуроки + тесты + интерактивные задачи.
Программа обучения:
- О чём курс?
- Big Data, Deep Machine Learning — основные понятия.
- Модель, начнём с дерева.
- Pandas, Dataframes.
- Фильтрация данных
- Группировка и агрегация.
- Визуализация, seaborn.
- Практические задания: Pandas.
- Секретный гость.
- Stepik ML contest — это ещё что такое?
- Stepik ML contest — data preprocessing.
- Какого музыканта Beatles я загадал или entropy reduction.
- Немного теории и энтропии.
- Titanic: Machine Learning from Disaster.
- Обучение, переобучение, недообучение и кросс-валидация.
- Последний джедай или метрики качества модели.
- Подбор параметров и ROC and Roll.
- Практика, Scikit-learn, fit, predict, you are awesome.
- ML на практике — автокорректор ошибок правописания.
- Секретный гость.
- Stepik ML contest.
- Снова возвращаемся к деревьям.
- Random forest.
- Зачем знать что-то ещё, если есть Random Forest?
- Секретный гость.
- И на Марсе будут яблони цвести.
- Нейроэволюция.
- Трюки в Pandas.
- Вот и всё, а что дальше?
- Stepik ML contest.
Что освоите:
- Основные понятия Data Science и Machine Learning
- Наиболее популярные Python-библиотеки для анализа данных — Pandas и Scikit-learn
- Начать обучение можно сразу после регистрации
- Обучение проводят лучшие преподаватели Института биоинформатики
- Современная программа обучения
- Изложение материала простым языком
- Можно бесплатно получить сертификат по окончании обучения
Преподаватели:
Как стать Data Scientist с нуля?
Давайте разберемся, с чего начать обучение профессии, и как можно стать специалистом по анализу данных.
- Первый способ – поступить в профильный вуз и параллельно освоить необходимые языки программирования и инструменты визуализации. Есть несколько вузов, выпускники которых особенно ценятся среди работодателей.
- Второй способ – пойти на курсы, где вы изучите математическую базу и получите практические навыки. Если у вас уже есть техническое образование, пусть даже не связанное с Data Scientist, это оптимальный вариант. Если технического образования нет, то найти первую работу будет сложнее. Вам могут помочь курсы, где есть программы помощи с трудоустройством.
-
Часто в профессию переходят аналитики данных и Python-разработчики. Сфера активно растет, поэтому людей привлекают высокие зарплаты и перспективы.
Также освоить профессию Data Scientist можно через интернет. Многие люди, которые ищут, с чего начать карьеру в этой сфере, выбирают данный путь. Есть несколько онлайн-университетов, где можно пройти обучение:
Название курса и ссылка на него |
Описание |
Профессия Data Scientist в Skillbox |
Курс в университете Skillbox. Подходит новичкам и людям без опыта работы в IT. Вы изучите теорию (анализ данных, Machine Learning, статистика, теория вероятностей, функции, работа с производными и многое другое), научитесь программировать на Python и языке R, изучите библиотеки Pandas, NumPy и Matplotlib, работу с базами данных. Сможете создавать рекомендательные системы, применять нейронные сети для решения задач, визуализировать данные. Включает практические задания. На защите диплома присутствуют работодатели. |
Обучение Data Scientist в Нетологии (уровень – с нуля) |
Курс походит людям, которые хотят сменить текущую профессию на Data Scientist. Включает программу помощи с трудоустройством. Изучают математику для анализа данных, построение моделей, управление data-проектами, Python, базы данных, обработку естественного языка (NLP) и многое другое. Объема полученных знаний хватит для старта в карьере. Преподаватели – сотрудники крупных ИТ и финансовых компаний. |
В интернете есть бесплатные курсы по Data Scientist. Если вы думаете, подойдет или нет вам эта профессия, то можете посмотреть данные уроки и получить более полное представление и описание данной работы:
- Анализ данных на Python в задачах и примерах
- Курс по библиотеке Pandas
- Курс по машинному обучению для новичков
- Бесплатный курс по базам данных MySQL
-
Работа с Google Таблицами для начинающих
Профессия Data Scientist от Skillbox
Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.
Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.
Робототехника
- Роботы (робототехника)
- Робототехника (мировой рынок)
- Обзор: Российский рынок промышленной робототехники 2019
- Карта российского рынка промышленной робототехники
- Промышленные роботы в России
- Каталог систем и проектов Роботы Промышленные
- Топ-30 интеграторов промышленных роботов в России
- Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
- Технологические тенденции развития промышленных роботов
- В промышленности, медицине, боевые (Кибервойны)
- Сервисные роботы
- Каталог систем и проектов Роботы Сервисные
- Collaborative robot, cobot (Коллаборативный робот, кобот)
- IoT — IIoT — Цифровой двойник (Digital Twin)
- Компьютерное зрение (машинное зрение)
- Компьютерное зрение: технологии, рынок, перспективы
- Как роботы заменяют людей
- Секс-роботы
- Роботы-пылесосы
- Искусственный интеллект (ИИ, Artificial intelligence, AI)
- Обзор: Искусственный интеллект 2018
- Искусственный интеллект (рынок России)
- Искусственный интеллект (мировой рынок)
- Искусственный интеллект (рынок Украины)
- В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
- Национальная стратегия развития искусственного интеллекта
- Национальная Ассоциация участников рынка робототехники (НАУРР)
- Российская ассоциация искусственного интеллекта
- Национальный центр развития технологий и базовых элементов робототехники
- Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС
Robot Control Meta Language (RCML)
- Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
- RPA — Роботизированная автоматизация процессов
- Видеоаналитика (машинное зрение)
- Машинный интеллект
- Когнитивный компьютинг
- Наука о данных (Data Science)
- DataLake (Озеро данных)
- BigData
- Нейросети
- Чатботы
- Умные колонки Голосовые помощники
- Безэкипажное судовождение (БЭС)
- Автопилот (беспилотный автомобиль)
- Беспилотные грузовики
- Беспилотные грузовики в России
- В мире и России
- Летающие автомобили
- Электромобили
- Подводные роботы
- Беспилотный летательный аппарат (дрон, БПЛА)
Какие задачи решает?
Data scientists извлекают, анализируют и интерпретируют большие объемы данных из различных источников, используя алгоритмы, интеллектуальный анализ данных, искусственный интеллект, машинное обучение и инструменты статистического учета, чтобы создавать из них бизнес-модели. После интерпретации результаты должны быть изложены понятным и интересным языком.
Специалисты по обработке данных пользуются большим спросом в ряде секторов, поскольку предприятиям требуются люди с правильным сочетанием технических, аналитических и коммуникативных навыков. Data scientists могут работать в различных областях, в том числе:
- коммерции;
- образовании;
- науке;
- здравоохранении;
- розничной торговле;
- информационных технологиях;
- правительственных организациях;
- электронной коммерции (бизнесе онлайн).
Как специалист сайентист должен выполнять следующее:
- работать в тесном сотрудничестве с руководством компании, чтобы выявлять проблемы и использовать имеющиеся сведения, и предлагать варианты для эффективного принятия решений;
- создавать алгоритмы и разрабатывать эксперименты для объединения, управления, опроса и выделения данных для предоставления индивидуальных отчетов коллегам, клиентам или всей организации;
- использовать инструменты машинного обучения и статистические методы для решения проблем;
- тестировать модели интеллектуального анализа данных, чтобы выбрать наиболее подходящие для использования в конкретном проекте;
- поддерживать четкую и последовательную коммуникацию (как устную, так и письменную), чтобы понимать потребности в данных и сообщать о результатах;
- создавать отчеты, которые позволят четко понять, как клиенты или посетители взаимодействуют с компанией;
- оценить эффективность источников данных и методов их сбора данных и улучшать их;
- постоянно повышать квалификацию, чтобы оставаться в курсе последних технологий и методов;
- проводить исследования, на основе которых будут разрабатываться прототипы и доказательства концепций;
- искать возможности использовать соотношения идей, наборы данных, кодов и моделей в других структурах организации (например, в отделах кадров и маркетинга);
- сохранять заинтересованность по поводу использования алгоритмов для решения проблем и давать другим возможность видеть пользу от своей аботы.
Образование в области Data Science: ничего невозможного нет
Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.
Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.
Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.
Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.
Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.
Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.
«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.
Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков
Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях
15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. |
Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.
Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.
Специализация Дата-сайентист
Полный функционал Data scientist зависит от направления деятельности предприятия, на котором специалист трудится.
Основные должностные обязанности:
- сбор сведений из разных каналов для дальнейшего анализа;
- прогнозирование моделей базы клиентов, ее сегментация для продвижения конкретных продуктов;
- изучение эффективности продаж;
- анализ всевозможных рисков;
- составление периодичных и разовых отчетов с визуализацией полученных результатов и прогнозирование показателей на перспективу;
- обнаружение мошеннических схем по сомнительным операциям.
Хороший специалист этой отрасли отличается от новичка умением выявлять логические цепочки в общем массиве информации, предлагая руководству оптимальные бизнес-решения.
Где учиться на Data Scientist — специалиста по большим данным
Изучение науки о данных с нуля лучше начинать сразу после окончания школы. Немногие ВУЗы обучают дата-сайентистов. Профессиональных аналитиков готовят по специальным программам ряд учебных заведений. Среди них:
- Высшая Школа Экономики (ВШЭ) – факультет компьютерных наук – магистерская программа на русском и английском языках;
- Московский физико-технический институт (МФТИ) – факультет инноваций и высоких технологий – магистратура;
- Московский государственный университет имени М.В.Ломоносова (МГУ) – факультет вычислительной математики и кибернетики – магистерская программа на 2 года;
- Санкт-Петербургский государственный университет (СПбГУ) – 2-годовая программа магистратуры на английском языке «Бизнес аналитика и большие данные».
Существуют некоммерческие курсы дополнительного образования для лиц любого возраста. Обучаться на них можно после сдачи вступительных экзаменов, преодолев необходимый порог по баллам. Срок обучения – 2 года.
Список курсов для подготовки специалистов в сфере Data science:
- Школа Анализа Данных Яндекса;
- Технопарк Mail.ru и МГТУ имени Баумана (упор на обучение системных инженеров);
- Центр компьютерных наук (Яндекс с Jet Brains);
- Петербургская школа данных (компания E-Contenta).
В интернете много коммерческих курсов по анализу данных. Их стоимость составляет 100-200 тысяч рублей. Срок обучения – от 2 до 8 месяцев. Перевод денег за учебу осуществляйте, убедившись, что выбранные курсы – не лохотрон, разводящий «чайников».
Удаленно обучиться анализу данных можно в институте интернет-профессий Нетология. В зависимости от раздела Data Science, стоимость курсов составляет от 25 до 200 тысяч рублей. Полная информация размещена на официальном сайте https://netology.ru/.
Компания Open Data Science обучает новичков и создает совместные аналитические проекты. Она организует бесплатные международные конференции по актуальным вопросам и направлениям развития, проводит конкурсы среди дата-сайентистов.
В сети доступны видео-уроки, книги, онлайн-лекции по этой тематике.
Machine Learning Engineer (MLE)
Как можно догадаться, основная разница с предыдущим подвидом инженера как раз связана с машинным обучением. Пока дата инженер больше работает с подготовкой данных, обычно больших, и собственно модели не обучает, для Machine Learning Engineer это важная часть работы. Вкратце — это software engineer с уклоном в машинное обучение, который может выполнить полный цикл — от сбора данных для модели до деплоймента ее как части продакшен-приложения.
Следовательно, требования к MLE чем-то похожи на требования к дата инженеру: в первую очередь, это просто компетентный разработчик, знающий и алгоритмы, и инженерные практики (может ответить, зачем нужен CI, и рассказать пару баек, почему выкатываться в пятницу может быть плохой идеей). При этом он более или менее понимает теорию машинного обучения (например, понимает bias-variance tradeoff и может написать градиентный спуск с нуля). Хороший MLE знает современные алгоритмы машинного обучения, но не спешит использовать самые горячие новинки. Ему обычно не нужно изобретать что-то с нуля, но слегка адаптировать существующий подход под свою задачу — довольно часто.
В зависимости от домена, у MLE могут быть специфические навыки. Например, для обработки видео на телефоне в реальном времени нужно уметь написать сколько-то быстрый код на C++, а для разработки классического бэкенд-приложения обычно полезно быть «на ты» с Docker.
Зачем победитель Kaggle и TopCoder переехал в Минск из Питера
По теме
Зачем победитель Kaggle и TopCoder переехал в Минск из Питера
«Мне 30, а я в Ангарске». Сисадмин-самоучка из Сибири попал в топ Kaggle и теперь тренирует нейросети в минской Mapbox (+список курсов по Computer Vision)
По теме
«Мне 30, а я в Ангарске». Сисадмин-самоучка из Сибири попал в топ Kaggle и теперь тренирует нейросети в минской Mapbox (+список курсов по Computer Vision)
«Никто не хотел брать меня в команду». Как 24-летний белорусский Data Scientist объединился с «парнем из Японии» и выиграл $50 тысяч на Kaggle
По теме
«Никто не хотел брать меня в команду». Как 24-летний белорусский Data Scientist объединился с «парнем из Японии» и выиграл $50 тысяч на Kaggle
«Я проработал так 4 месяца». Кирилл Жданович ушёл из шведского Spotify, чтобы организовать себе трёхдневку «с сохранением зарплаты». Говорим про ML, труд, май
По теме
«Я проработал так 4 месяца». Кирилл Жданович ушёл из шведского Spotify, чтобы организовать себе трёхдневку «с сохранением зарплаты». Говорим про ML, труд, май
Работа data сайентистом
Профессия data scientist интересна и востребована. Многие прямо сейчас изучают эту сферу, в то время как другие ищут хороших специалистов по данной специальности.
Что касается востребованности, по множествам рейтингов в США эта профессия считается самой востребованной в стране. В России тоже много вакансий для дата-сайентиста, особенно в Москве. Так как сфера сейчас стремительно развивается и явно обладает огромным потенциалом, количество вакансий точно будет увеличиваться с каждым годом. Как у нас, так и за рубежом.
Основным плюсом работы специалистом по данным является заработная плата и быстро развивающееся направление, которое скорее всего будет актуально многие годы. Но сразу стоит отметить, что профессия объемная и трудная в изучении. Чтобы стать тем, кого возьмут на работу, надо потратить 1-2 года на обучение, усердно занимаясь на курсах или самостоятельно.
Так же дата-сайентистом крайне сложно стать людям, мало смыслящим в математике. Есть примеры, когда гуманитарий становился data-сайентистом, но для таких случаев путь изучения специальности еще более тернист и сложен. Помимо математики, облегчить становление специалистом по данным можно, зная статистику, программирование и основные принципы машинного обучения.
Заработок в профессии
То, сколько получают дата саентисты, зависит от нескольких факторов:
- опыт работы ученого по данным;
- навыки, которые можно подтвердить путем прохождения тестовых заданий или показа предыдущие проекты;
- сферы деятельности компании-работодателя;
- сложности конкретного проекта или группы проектов.
На 2020 год показатели зарплаты выше среднестатистических. Это от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Столько получают новички в профессии.
Средняя заработная плата специалиста составляет примерно 105-150 тысяч рублей в России и 140-190 тысяч рублей в Москве. Специалисты с высокой квалификацией и большим опытом зарабатывают от 230 тысяч рублей.
Заработок за границей зависит от страны. В Европе платят так же, как в Москве, а вот в Америке заработная плата больше. В час там платят в среднем 40-60 долларов, то есть работая условные 4 часа в день можно зарабатывать по 200 долларов. Высокая заработная плата связана не только с разницей в экономике России и США, но и с тем, что в Америке намного больше компаний и стартапов, которым нужен ученый по данным.
Требования и обязанности
Эффективный способ понять, что должен уметь дата саентист — ознакомиться с требованиями работодателя. Причем как в вакансиях на постоянную работу, так и в проектных работах на фрилансе. Конечно, у каждого работодателя будут свои требования к аналитику, но основные обязанности специалиста встречаются во всех вакансиях.
Список главных требований и обязанностей:
- проведение исследований в области деятельности компании;
- создание систем для прогнозирования и оценки рисков;
- сегментация клиентов;
- отличное владение SQL;
- оптимизация процессов на основе большого объема данных;
- создание автоматизированных систем для анализа данных на основе современного инструментария Data Science (Python, Apache Spark, Jupyter, Zeppelin);
- работа в Apache Kafka, HDFS, Apache Spark, Apache Cassandra;
- создание, развитие и поддержка внутренней инфраструктуры данных для их анализа, обработки и составления прогнозов;
- знание языка программирования Python и/или R;
- построение моделей данных и работа с сырыми данными;
- формулировка гипотез и их валидация;
- визуализация результатов;
- понимание принципов математической статистики и методов машинного обучения;
- использование прикладной статистики;
- работа с современными системами контроля версий (Git, HG);
- взаимодействие с подразделением IT.
Пример вакансии:
Где найти работу
В том, чтобы найти работу data сайентисту, нет ничего сложного. После обучения стоит поискать вакансии на одном из популярных сайтов (например, на HeadHunter или Trud). Там можно отфильтровать работу по опыту, заработной плате, виду деятельности и расположению офиса.
Если хочется начать с проектной работы, лучше поискать заказы на биржах фриланса. Отмечу, что проектные заказы, связанные с работой с данными, встречаются редко и довольно сложны в выполнении, так как требуют ознакомления с деятельностью компании-заказчика. Придется каждый раз делать это заново, ведь на фрилансе заказчики будут меняться часто. Поэтому данный вид деятельности рекомендован опытным специалистам, а не новичкам.
Место работы
Data scientist востребован везде, где используются данные для решения конкретных задач. Это может быть финансовая структура, применяющая скоринговые системы при кредитовании физических лиц, или транспортная компания, составляющая расписание движения автобусов на основе анализа пассажиропотока.
Типы работодателей для дата-сайентистов:
- Крупные интернет-компании. Устроившись в подобную фирму стажером, можно наработать опыт в области обработки данных для карьерного роста. Работникам обеспечена официальная занятость, полный соц. пакет, бонусы.
- Аналитические подразделения предприятий различных отраслей деятельности. В эту группу входят банки, аудиторские фирмы, телекоммуникационные операторы, ритейл-сети. Сбербанк, один из первых финансовых гигантов в стране, воспользовался услугами дата-сайентистов. Работая в исследовательском отделе крупной компании, опытный специалист может внести личный вклад в ее развитие, предложив на основе анализа данных пути решения застарелых проблем.
- Стартапы в сфере data science. Фирмы, работающие в сфере консалтинга, набирают в штат команду дата-сайентистов. Для качественного консультирования клиента важен всесторонний подход к анализу его деятельности, формулирование предложений по продвижению бизнеса.
Бизнес-сообщество нуждается в грамотных специалистах по анализу данных. Поэтому на рынке труда постоянно присутствует много вакансий аналитиков в сфере финансов, телекоммуникаций, маркетинга и других направлений.
Кто такой Data Scientist и чем он занимается?
Говоря простыми словами, это специалист по анализу данных. Он собирает их, объединяет в базы, ищет и анализирует закономерности и на этой основе создает модели, которые помогают принимать те или иные решения. Чаще всего они востребованы в следующих сферах: ИТ, телеком, банки и финансы, консалтинг, маркетинг, научные исследования.
Какие задачи они решают:
- Создание рекомендательных систем.
- Формирование прогнозов, например, на рынках акций.
- Создание скоринговых систем, которые принимают решения на основе анализа большого объема данных. Например, выдать кредит клиенту или нет.
- Выявление аномалий в различных системах. Например, для автоматической блокировки подозрительных банковских операций.
-
Персонализированный маркетинг. Формирование уникальных предложений для клиентов, акций, скидок.
Чтобы проще понять, чем занимается Data Scientist, разберем пример рекомендательного алгоритма. Многие музыкальные сервисы на основе статистики прослушиваний могут предлагать пользователям другие треки, которые им понравятся. Алгоритм, по которому работает эта программа, создает специалист по анализу больших данных.
Все больше компаний собирают различные базы данных, которые используются для разных целей. Поэтому востребованность специалистов растет. Им предлагают хорошие зарплаты, о чем расскажем ниже.
Мы разобрались, кто такой Data Scientist и что это за профессия. Пора поговорить о преимуществах и недостатках данной работы.
Какие ошибки делают новички
Когда я только пришел на работу, мне хотелось применять как можно больше новых технологий и подходов. На самом деле это не всегда полезно. Например, мне нужно было смоделировать поведение данных по одному из банковских продуктов. У разных методов прогнозирования разная точность: среди моделей нужно выбирать наиболее быструю и точную. По неопытности я потратил много времени, чтобы создать сложную модель, а в итоге получил то же качество, что и у самых простых.
Это достаточно стандартная ошибка новичков: многие сразу хотят сделать что-то сложное и интересное там, где это не нужно. Так я понял, что лучше вести разработку от простого к сложному. Не усложняйте свои задачи до тех пор, пока работают быстрые проверенные методы.
Решаем задачи целиком
Пол Хиемстра, преподаватель и практик Data Science, даёт три совета тем, кто хочет эффективно изучать науку о данных.
Работайте над проектами целиком. У начинающих дата-сайентистов обычно скромная роль, они отвечают за небольшие кусочки проекта. Эту проблему решает pet-проект, который можно делать параллельно с основной работой. Он поможет помнить о масштабе и не работать над разными этапами по отдельности. Конечно, придётся осваивать и точечные навыки (например, какую-нибудь Python-библиотеку), но потом сразу возвращайтесь к целой задаче.
Как сделать pet-проект: найдите датасет из интересующей вас области и проанализируйте его, например, по методологии CRISP-DM. Описывайте каждое своё действие, а главное — соединяйте шаги между собой. Для этого подойдут сервисы типа Google Colab и Jupyter Notebooks. Подробный отчёт о pet-проекте украсит ваше портфолио.
Найдите хорошего наставника. Обсуждать свою работу с опытным дата-сайентистом — хорошая практика. Так вы прокачаете метакогнитивные навыки, которые необходимы для быстрого разбора сложных проблем. В общении с наставником старайтесь фокусироваться на том, как вы решаете проблему — то есть на подходе и идеях, а не на самом решении (коде, модели, библиотеке). Вопросы «а как…» позволяют максимально раскрыть и перенять опыт.
Найдите единомышленников. Объяснение своих решений другим людям, ответы на их вопросы — прекрасный способ лучше понять собственную работу. Помните незадачливого «препода» из анекдота, который на третий раз уже и сам понял, что говорит, а студенты так и не смогли? Так вот — это не просто шутка. А слушая решения других, пытайтесь в первую очередь выяснить, почему ваш собеседник сделал что-либо (например, выбрал конкретную модель).
Основные термины
Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.
Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.
Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.
Tree-based-алгоритмы — использование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.
Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.
Feature Engineering (конструирование признаков) — процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).
Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.
Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.
Заключение
Сейчас вы уже знаете о должности Data Scientist: что это за профессия, какие обязанности у специалиста, плюсы и минусы деятельности, где можно выучиться и найти работу.
Это сложная профессия и подойдет она далеко не всем. Но те, кто все же заинтересуется, должны знать, как отзываются об этой работе действующие специалисты:
- Эта работа нравится мне тем, что каждый раз приходится подходить творчески ко взаимодействию с данными. Каждая задача особенная и к ней надо подобрать оригинальный ключик.
- Я вижу огромный потенциал у этой должности. Все программы, коды и алгоритмы помогают быстро решать сложнейшие бизнес-задачи при помощи Big Data. И для этого не надо нанимать много работников.
- Главное в этой профессии – нельзя останавливаться в обучении. Всегда ищите что-то новое. Каждое изменение в индустрии может повлиять на подход к работе.
- Надо уметь разговаривать не только с профессионалами, но и обычными людьми, которые не настолько знакомы с техническими терминами. Поэтому учитесь выражаться на простом языке.
- Работа Data Scientist – это непрерывный процесс, ведь данные постоянно обновляются и добавляются все новые сведения.
Чтобы у вас было больше альтернатив при выборе будущей профессии, посмотрите и другие интересные должности и их описание на блоге iklife.ru.
Всего хорошего!