Партнерский материал
14 августа 2018

Это мы изучаем большие данные. Кто в Петербурге исследует интерес к биткоинам, флешмоб MeToo и производство нефти с помощью data science

Вместе с «Газпром нефтью» «Бумага» рассказывает о петербуржцах, чьи профессии связаны с самыми современными и сложными технологиями. В новом материале — истории специалистов, которые изучают большие данные.

Как data science помогает изучать картины и предсказывать утечки данных или взломы в интернете, почему нужно анализировать человеческое поведение, чтобы создать искусственный интеллект, и что показало исследование твитов с хештегом #MeToo из разных стран?

Сотрудники компаний SEMrush и «Газпром нефти» рассказали «Бумаге», почему решили заниматься data science и насколько сложно работать с терабайтами данных.

Ольга Ломакина

Data scientist в SEMrush

Чем занимаются дата-специалисты?

Data science — наука, которая изучает большие наборы данных, а data scientist — человек, который может найти среди этих данных взаимосвязи и закономерности, предсказывать тренды. Этим, собственно, я и занимаюсь: собираю информацию, выбираю самые интересные данные и нахожу в них изюминку, которую можно развить в крутое исследование. Для этого на языке Python создаю математические модели, которые обрабатывают данные и выдают результаты или прогнозы.

Data science становится всё популярнее и востребованнее — это профессия будущего.

Исследования в этой области охватывают много сфер: например, компьютерное зрение (способность машины распознавать визуальное изображение — прим. «Бумаги»), распознавание речи и искусственный интеллект, который сможет заменить многие существующие профессии. Так, эти технологии помогут распространению беспилотных автомобилей и cменят водителей. Уже сейчас очень хорошо развиваются онлайн-переводчики. Курьеров можно будет заменить автоматической доставкой при помощи дронов. Чтобы всё это запрограммировать и правильно обучить, необходимы математические модели.

Продукты компании SEMrush: интернет-маркетинг, различные данные о социальных медиа, SEO. Я работаю в команде международного PR. Основываясь на наших данных, мы проводим исследования, которые публикуются в различных зарубежных СМИ, медиа: Bloomberg, Reuters, Business Insider, Herald Sun.

Как вы попали на эту работу?

Я полюбила математику еще в детстве, с начальной школы мне хорошо давался этот предмет. По этой причине выбрала специальность, связанную с математикой, а во время учебы в университете узнала о существовании data science — очень творческой математической области, где можно изучать не абстрактные числа, как это делают профессора-математики, а проводить исследования, приближенные к жизни и бизнесу.

Профессия достаточно молодая, она выросла на стыке математики и информатики. Моему собеседованию в SEMrush предшествовало обучение в бакалавриате и магистратуре, прохождение разных курсов, конференций, мероприятий для саморазвития. Я окончила Высшую школу экономики в Москве, профиль — прикладная математика и информатика. В магистратуре училась в петербургской Высшей школе экономики, изучала анализ больших данных в бизнес-экономике и обществе.

В SEMrush мы выбираем темы для исследований, исходя из самых обсуждаемых тем в медиа — либо в технических кругах, либо в крупных американских СМИ.

Например, недавно Business Insider опубликовал результаты наших исследований о криптовалютах. Мы изучили различные зависимости и тренды: как часто люди ищут в поисковике биткоины и другие криптовалюты, как курс биткоина влияет на интерес людей к этой теме и количество поисковых запросов. В том же исследовании сравнивали трафики сайтов, которые занимаются обменом биткоинов. Выяснилось, что сайты бирж криптовалют обгоняют по трафику сайты обычных бирж, на которых торгуют акциями.

В другом исследовании мы проанализировали 8000 сайтов, занимающихся e-commerce (электронной коммерцией — прим. «Бумаги»), из Европы и США. Основываясь на данных SEMrush о трафике, рекламе, технических характеристиках сайтов и прочих данных, подготовили рекомендации для маркетологов, работающих в этой сфере. Например, выяснили, что 56,98 % трафика коммерческих сайтов потребляется с экранов мобильных телефонов.

Кроме того, специалисты SEMrush проводили исследование о том, какие факторы оказывают наибольшее влияние на ранжирование сайта в поисковой выдаче. Оно вызвало большой интерес в SEO-комьюнити. Самые значимые факторы ранжирования, согласно результатам исследования: прямой трафик, время, проведенное пользователем на сайте, и количество страниц, которое пользователь просмотрел за одно посещение сайта.

Из еще не опубликованных наших работ — исследование твитов с хештегом #MeToo, их эмоциональной окраски и других характеристик (хештег появился после обвинений в сексуальных домогательствах Харви Вайнштейна: женщины использовали хештег, рассказывая свои истории, — прим. «Бумаги»). Так, Швеция уделяет особое внимание правам женщин и возглавляет список с наибольшим количеством запросов #MeToo; США и Канада занимают второе и третье места. Большинство твитов с хештегами несут положительную окраску либо нейтральную — и только 15 % выражают негатив. Мы также исследовали популярность людей, интерес к которым существенно возрос в связи с событиями #MeToo. После речи Опры Уинфри на «Золотом глобусе» (на церемонии она выступила в поддержку жертв сексуальных домогательств — прим. «Бумаги») количество поисковых запросов с ее именем увеличилось в шесть раз.

Другой пример: мы проанализировали составы и архивы крупных СМИ — washingtonpost.com, foxnews.com, huffingtonpost.com и других — и изучили темы и тренды: о чем говорят и пишут в обществе. Сейчас работаем над результатами.

Что самое сложное в вашей профессии?

Нужно всегда быть в тренде: область очень быстро развивается, постоянно появляются новые научные статьи и методы, за которыми нужно следить и которые необходимо держать в голове. В определенный момент эти методы могут помочь тебе решить какую-то конкретную задачу гораздо лучше, чем те, которые были актуальны полгода назад.

Объем данных зависит от исследования: бывают исследования данных за десять лет или, например, за последний месяц. Для больших исследований мы можем проанализировать данные 10 тысяч доменов и миллиона — ограничений нет. Количество затраченного времени также зависит от задачи: иногда можно справиться буквально за пару дней, а если исследование серьезнее, работа над ним может длиться около одного-двух месяцев.

Почему эту работу не может выполнить кто угодно?

Нельзя прийти с улицы, пройти курсы за две недели и научиться этой профессии. В лучшем случае, если ты прекрасный математик и информатик, можно изучить эту специальность, думаю, за два месяца. Кроме того, нужно решать очень много практических задач, чтобы понять всю суть, — это приходит с опытом.

Стоит ли заниматься этим делом в Петербурге?

Этой профессией можно заниматься в любой точке мира, если там есть интернет. При этом мне нравится жить и работать в Петербурге, потому что здесь очень крутое data-science-комьюнити.

Здесь data science занимается большое количество людей, проходят различные встречи. Например, ODS SPb Meetup и SPBDSM Meetup, а также дата-завтрак, который проходит каждый четверг в 9:30 в кафе Bonch. На всех этих встречах — формальных и неформальных — можно пообщаться с коллегами из других компаний, обменяться опытом.

Еще в Петербурге проходят data-science-хакатоны, например, из недавних — хакатон AI Hack. Организаторы предлагали выбрать одну из пяти задач. Мы с командой решали задачу прогнозирования оттока клиентов «Газпром нефти»: по предоставленным ею данным необходимо было разработать алгоритм выявления клиентов, которые, начиная со следующего месяца, не будут заправляться на АЗС. Мы вышли в топ-10 на Kaggle (платформа, которая проводит соревнования для исследователей в сфере data science — прим. «Бумаги») и представили презентацию своего решения.

Фото: Олег Савунов

Никита Куприянов

Начальник отдела исследования и разработки в Центре цифровых инноваций «Газпром нефти»

Как data science помогает развитию бизнеса?

Деятельность Центра цифровых инноваций сконцентрирована на бизнес-процессах логистики, переработки и сбыта. Зачастую для решения задач, которые перед нами ставит бизнес, применяется машинное обучение и анализ данных.

Например, возьмем производство абстрактного нефтепродукта. Есть план: что и в каком количестве необходимо произвести в месяц. Производство может работать с предельной загрузкой, но с перерасходом электроэнергии и износом оборудования, а может эффективно и оптимально расходовать ресурсы. Задача специалистов data science — разработать рекомендательные системы для эффективного управления отдельной установкой и системами установок. Большая задача — построить «цифровых двойников». Они позволяют прогнозировать, как поведет себя та или иная установка под влиянием внешних факторов, — например, выход смежного оборудования из строя или внеплановая остановка производства.

Оборудование оснащается измерительными приборами, которые генерируют множество различных сигналов, характеризующих его состояние: температура, загруженность, количество потребляемой энергии и так далее. Потенциально все параметры можно анализировать. Специалист по data science должен определить, какие из этих параметров необходимы для решения определенной задачи (например, выхода оборудования из строя) и правильно подобрать модель, которая позволила бы с помощью этих данных предсказать момент выхода оборудования из строя.

Как вы попали на эту работу?

В моей жизни об искусственном интеллекте все заговорили, когда сняли фильм «Терминатор». Тогда я впервые задумался о существовании машины, которая была бы способна мыслить, но это были детские впечатления. Более углубленное знакомство с AI (artificial intelligence — искусственный интеллект — прим. «Бумаги») я получил на занятиях по предмету «Искусственный интеллект» в ЛЭТИ. Я полагал, что это будет крайне интересно, и с нетерпением ждал лекций. Но в итоге разочаровался. Оказалось, что искусственный интеллект — это просто достаточно сложный математический аппарат. И всё. Сакральный смысл был утерян.

Позже мое внимание привлекла информационная безопасность. Тогда модной темой был анализ поведения пользователей в сети. На сегодняшний день угрозы в интернете выявляются не только при помощи стандартных алгоритмов, но и при помощи искусственных нейронных сетей. На базе трафика нейронная сеть может охарактеризовать «поведение» человека в интернете: представляет ли он и его деятельность опасность для общества или информационных систем.

Оценив потенциал направления, я окончательно решил заняться data science и начал осваивать эту тему самостоятельно: читал литературу, проходил курсы в интернете, писал простейшие модели. С тех пор я уже около пяти лет занимаюсь data science.

Сфера развивается очень быстро, появляются новые модели. Жаль, что большинство выдающихся разработок принадлежит зарубежным компаниям. Например, DeepMind (британская корпорация, которая занимается искусственным интеллектом; например, в 2016 году их программа для игры в го AlphaGo выиграла матч у чемпиона мира Ли Седоля — прим. «Бумаги»).

Есть у направления и печальные новости. Человек принимает решение, основываясь на жизненном опыте, но такое же решение может принять машина. Искусственный интеллект быстро развивается и на сегодняшний день может принять весьма успешно массу решений за меня. Так, современные магазины выбирают за меня, что мне купить. И мне даже нравятся варианты, которые они предлагают.

Пока, конечно, всё это работает на человека: машина еще не может сама себе поставить задачу. Как только она научится это делать — а мощности дают ей гораздо больше возможностей, чем есть у человека, — нам останется только творчество. Хотя на сегодняшний день искусственный интеллект уже очень неплохо творит: рисует картины и пишет музыку. Насколько это можно назвать искусством, скорее уже философский вопрос.

Недавно ученые мира в сфере data science подписали договор о том, что они не будут разрабатывать оружие с использованием искусственного интеллекта. Это один из шагов, который позволит нам посмотреть на результаты разработки самостоятельного искусственного интеллекта — и при этом остаться в живых. Илон Маск говорит о том, что искусственный интеллект несет опасность, и нам следует об этом помнить.

Почему эту работу не может выполнить кто угодно?

Сейчас это очень перегретая область. Я сужу по тем людям, которые приходят ко мне на собеседования. Большинство претендентов на позицию data scientist знают минимальный набор алгоритмов, шаблонные модели и сразу идут на рынок. Зачастую это способствует снижению производительности решений.

Что самое сложное в вашей профессии?

Самое сложное — это понять, как работает та или иная модель, математический аппарат, почему он делает те или иные выводы. Безусловно, для того, чтобы это понимать, нужно уделять массу времени изучению моделей и областям их применения.

Стоит ли заниматься этим делом в Петербурге?

Петербург — очень хороший город, и здесь замечательная атмосфера для работы. Но в этом смысле всё зависит не от города, а от сообщества.

С точки зрения статистики в Москве гораздо больше людей — и на единицу площади приходится больше талантливых ребят.

Кроме того, чем больше людей живет в городе, тем выше вероятность, что там откроется крупная компания, куда приглашают на работу и съезжаются люди из небольших регионов. Компаний, для которых анализ данных является релевантной задачей, в Москве, мне кажется, больше. Как и стартап-тусовок. А там, где стартапы, там и новые технологии, и интересные задачи.

Пять вещей, которые отличают вашу профессию

1.

Нельзя изучить науку о данных без глубоких познаний в математике и информатике

Ольга Ломакина: Для этой работы необходим технический склад ума, аналитическое мышление, знание математики и языка программирования, на котором можно реализовывать разные математические модели. В зависимости от компетенции можно выделить конкретные математические аспекты или языки программирования.

2.

С помощью больших данных можно предсказывать преступления

Никита Куприянов: Например, есть так называемый Darkweb, и есть компании, которые на базе анализа данных в Darkweb предсказывают утечку данных в банках или их потенциальный взлом. Это достаточно сложная задача с использованием искусственного интеллекта. Такая информация, как вы понимаете, стоит очень дорого — и рынок готов за нее платить.

3.

Эта профессия позволяет работать в разных сферах: от медицины до искусства

Ольга Ломакина: Например, в медицине можно анализировать рентгеновские снимки и ставить по ним диагнозы, а в искусстве — определять авторство картин, генерировать музыку или стихи. Data science — по моему мнению, одно из самых творческих направлений в технической сфере: чтобы выбрать подходящий метод и правильно интерпретировать полученные данные, необходимо проявить фантазию.

4.

Специалист должен уметь решать задачи нестандартно

Никита Куприянов: Если специалист умеет строить только шаблонные модели, он не сможет решить задачу, о которой не написано в интернете, и всё закончится плохо. Мне хотелось бы решать именно такие задачи — те, которые на сегодняшний день еще никто не решил.

5.

Чтобы собрать данные для искусственного интеллекта, нужно анализировать человеческое поведение

Ольга Ломакина: Например, чтобы роботы имитировали речь или написание музыки, сначала нужно собрать данные о человеческом поведении, проанализировать их, а затем уже запрограммировать.

Другие материалы о профессиях будущего читайте в спецпроекте «Бумаги» и «Газпром нефти»

Ева Реген
Авторы: Ева Реген
Если вы нашли опечатку, пожалуйста, сообщите нам. Выделите текст с ошибкой и нажмите появившуюся кнопку.
Подписывайтесь, чтобы ничего не пропустить
Профессии будущего. Спецпроект
Это мы занимаемся генетикой: кто в Петербурге изучает генные мутации и разрабатывает лекарства против наследственных заболеваний
Это мы создаем альтернативную энергию: кто в Петербурге производит электричество из мусора на свалках и делает топливо из борщевика
Это мы собираем роботов: кто в Петербурге создает машины, которые могут работать в космосе, заправлять самолеты и строить автомобили
Это мы создаем нейронные сети: кто в Петербурге делает беспилотники и как работает машинное обучение
Это мы создаем виртуальную реальность. Кто в Петербурге использует VR в фильмах про Эрмитаж и в образовании?
Технологии в Петербурге
В Петербурге презентовали беспилотный трамвай. Показываем, как он выглядит 👀
В Петербурге прошел фестиваль «Технокультура 4.0». Видео оттуда выглядят странно: на площадке почти никого нет, танцуют только роботы
Робот Алекс стал героем роликов с газового форума в Петербурге. Он ответил на вопрос о войне машин и людей и рассказал стих про бычка 🤖
В Петербурге запустили сервис для отслеживания движения машин скорой помощи. Рассказываем, зачем он нужен
Петербургский студент создал экзоскелет, с помощью которого можно поднимать тяжелые предметы. Его разработкой заинтересовались в МЧС
Новые тексты «Бумаги»
На «Бумаге» — премьера клипа «Научи меня жить» от группы «Простывший пассажир трамвая № 7»
От хюгге-кэмпа до экофермы: блогеры рекомендуют необычные места для путешествия по Ленобласти
Чем технология 5G будет полезна экономике и почему вокруг нее столько страхов? Рассказывает кандидат технических наук
На Рубинштейна постоянно проходят уличные вечеринки, где веселятся сотни людей. Местные жители жалуются на шум, а полиция устраивает рейды
Как проходило голосование по поправкам в Петербурге: вбросы бюллетеней, коронавирус у членов комиссий и участки во дворах
К сожалению, мы не поддерживаем Internet Explorer. Читайте наши материалы с помощью других браузеров, например, Chrome или Mozilla Firefox Mozilla Firefox или Chrome.