Как стать Data Scientist в финансах

Статья от команды SF Education
Data Science – наука молодая, но очень амбициозная и перспективная. Научившись эффективно обрабатывать данные, она вывела на новый уровень все сферы человеческой деятельности.

Грамотный data scientist может принести компании огромную прибыль, поэтому он необычайно востребован на рынке труда. Активный спрос и острый дефицит кадров определили привлекательный уровень зарплат. Получается, что быть аналитиком данных очень выгодно.

Особенно большая потребность в этих специалистах наблюдается в data-зависимых отраслях, например, в финансах. Если вы чувствуете, что анализ финансовой информации – это ваше призвание, смело ступайте на тернистый путь Data Science! Эта статья по шагам проведет вас в мир аналитики, больших данных и умных машин.

Шаг 1. Найдите в себе силы

Наука о данных в настоящее время молода, полна энергии и безгранична. В ней сочетаются фундаментальные научные подходы и современные технологии. Хороший специалист должен во всем этом разбираться, так что учиться будет трудно. Чтобы пройти этот путь, вы должны по-настоящему любить данные и работу с ними.

Успешный data scientist — это человек с особым образом мышления. Он любит решать сложные задачи — а других в этой области и не бывает — и не останавливается перед трудностями. По большому счету, именно эти качества отличают хороших специалистов от посредственных.

А еще вам придется много общаться с коллегами и руководителями. Сначала нужно будет понять задачу, затем разобраться, как ее решить, и наконец лучшим образом представить результаты.

Если вы к этому готовы, замечательно! Делайте следующий шаг.

Шаг 2. Разберитесь в концепциях

Насколько велики «большие» данные (big data), как и зачем их майнить (data maining), при чем здесь нейронные сети (neural network), и чему именно учатся машины (machine learning)?

Data Science полна непонятных терминов, в которых вам придется разобраться. Составьте общее представление с помощью книг и видеоуроков для начинающих.

Очень важно понимать, какие основные этапы обработки должны пройти данные, чтобы их можно было использовать:

  • сбор, очистка и предварительная подготовка;

  • статистический анализ;

  • обнаружение закономерностей, прогнозирование;

  • визуализация.

Конкретные действия на каждой стадии определяются спецификой задачи. На каком бы этапе вам ни пришлось работать, вы должны знать, что происходило с данными раньше, и что будет потом.

Шаг 3. Постройте фундамент

Анализ данных совершенно немыслим без отличных математических и статистических навыков. Даже великолепное владение инструментами не спасет, если вы не понимаете самой сути аналитики.

Для работы вам точно потребуются знания в области статистического анализа, линейной алгебры, теории вероятностей, многомерного исчисления.

Начать вы можете отсюда:

Шаг 4. Научитесь пользоваться инструментами

Data scientist работает с огромным количеством данных. Большая часть из них не имеет четкой структуры и нуждается в обработке. Многие задачи требуют быстрого решения, иногда даже моментального. Все это обуславливает необходимость использования компьютеров для анализа.

Для успешной работы вам нужно овладеть рядом инструментов, которые помогают:

  • собирать данные из разных источников;
  • извлекать из них полезную информацию;
  • структурировать ее;
  • проводить статистический анализ;
  • находить закономерности и связи;
  • визуализировать результаты.
Ниже перечислены основные полезные навыки для каждого этапа.
Извлечение и предварительная обработка
Базы данных

Большая часть необходимой для работы информации хранится в SQL-хранилищах. Чтобы извлечь ее оттуда, нужно владеть языком запросов к базе. Важно также понимать основы реляционной алгебры, чтобы уже на этом этапе придать данным определенную структуру.

Технологии Big Data

Для работы с большими данными используется Hadoop, позволяющий распределять вычисления на сотни узлов. Полезно будет ознакомиться с Hadoop-экосистемой, моделью MapReduce и сопутствующими технологиями вроде Apache Spark и Apache Flink.

Эти инструменты особенно важны, так как в финансовой сфере работа ведется со многими потоками данных.

UNIX

Иногда с неструктурированными данными удобнее всего работать через UNIX-консоль без зависимости от базы. Поэтому специалисту полезно знать некоторые команды.

Python

Самый популярный язык программирования для Data Science – это дружелюбный Python. На самом деле, он может использоваться на всех этапах обработки данных, так как имеет великолепные средства анализа и инструменты визуализации.

Для эффективной работы вам потребуются базовые знания языка, а также его библиотеки, в которых уже реализована большая часть необходимых алгоритмов, например, pandas.

Другие технологии

Если вы решите сосредоточиться на первом этапе обработки данных, обратите внимание на такие прогрессивные направления, как распознавание объектов и обработка естественного языка.
Анализ
Python/SAS/R

Язык программирования R – основной конкурент Python в области анализа данных. Он больше популярен в науке. Библиотеки обоих языков имеют богатейший набор методов для обработки данных.

SAS – еще одна альтернатива. Он чаще всего применяется в задачах прогнозирования.

Если не знаете, какой язык выбрать, взгляните сюда.

Машинное обучение

Пожалуй, самая интересная часть работы data-аналитика – это построение моделей машинного обучения, которые способны автоматически обрабатывать, сопоставлять данные и прогнозировать будущие события.

Чтобы стать профи в этом деле, разберитесь с python-библиотекой scikit-learn. Она имеет понятный интерфейс и позволяет тонко настраивать модели.

Для прогнозирования применяются алгоритмы нейронных сетей.
Представление результатов
Нельзя недооценивать этап визуализации данных. Важная задача аналитика – донести результаты своей работы до тех, кто будет непосредственно воплощать их в жизнь. Это значит, что представление должно быть максимально ясным и четким, исключающим всякую двусмысленность.

Для визуализации создано множество удобных инструментов, с которыми вам следует познакомиться, например:

  • D3.js;
  • Flare;
  • Tableau.

Владение этими инструментами даст вам преимущество при устройстве на работу.

Также широко применяется старый добрый Excel.
Шаг 5. Практикуйтесь

Изучив основы, немедленно принимайтесь за практическую работу. Работодатели не станут подпускать к своим ценным данным человека, не имеющего реального опыта.

Вы можете самостоятельно придумывать себе задачи, пользуясь готовыми наборами данных, или отправиться на Kaggle и принять участие в соревновании.

Отличные датасеты можно найти здесь и здесь.

А вот замечательные примеры готовых работ:



Великолепной возможностью для развития являются стажировки в компаниях, на которых вы можете поработать с реальными задачами.
Курс Big Data & Quantitative Finance. Начало 25 августа

Шаг 6. Определитесь со сферой интересов

Теперь, после первого погружения в Data Science, окиньте взглядом всю эту сферу и определитесь, что вам действительно интересно.

Возможно, ваше призвание — машинное обучение и алгоритмическая торговля, или вы виртуозно отбираете ценную информацию из грязных данных. А может быть, ваша дорога ведет в business intelligence и анализ финансовых отчетов.

Это непростой выбор, и вам, возможно, придется сделать несколько попыток. А для начала просто ознакомьтесь с базовыми ролями Data Science и ее основными применениями в финансах.

Наука о данных по ролям

Есть две основополагающие технологии работы с данными:

  • ETL (Extract/Transform/Load). Это технические специалисты: инженеры и архитекторы данных, администраторы баз данных. Сфера их ответственности — хранение, извлечение и преобразование информации. Они имеют дело прежде всего с формой.

  • DAD (Discover/Access/Distill). А это аналитики, для которых важнее содержание. Они ищут и обрабатывают данные разнообразными способами, выявляют взаимосвязи и делают прогнозы.

    В отдельную группу можно выделить бизнес-аналитиков. Они в работе больше полагаются на абсолютно точную информацию прошлого: отчеты, ключевые показатели эффективности (KPI). Их задача — ретроспективный анализ исторических данных и бизнес-тенденций.

Наука о данных в финансах

В некоторых отраслях специалисты по Data Science особенно востребованы:

  • кредитование — определение платежеспособности заемщика;
  • анализ финансовых рисков;
  • прогнозирование движения рынка;
  • алгоритмическая торговля;
  • обнаружение мошеннических операций.
Посмотрите, как наука о данных применяется в Сбербанке.
Шаг 7. Получите сертификат

Вы почти достигли своей цели, осталось лишь подтвердить ваши умения официальным сертификатом, который можно будет предъявить работодателю.

Существует множество курсов и программ аккредитации. Главное, подобрать подходящую именно вам. Будьте аккуратны, это очень модная сфера, здесь много шумихи и некачественных услуг.

Шаг 8. Найдите работу

Вы уже здесь? Замечательно!

Не бойтесь, у вас все получится.
Путь к профессии data scientist действительно долгий и трудный, но в то же время невероятно интересный, если вы имеете склонность к анализу. В этой области, вероятно, никогда не закончатся сложные задачи, решение которых требует творческого подхода.
Made on
Tilda