Что значит «партнерский материал»
Меткой «Партнерский материал» отмечена наша нативная реклама. Это журналистские тексты, которые редакция «Бумаги» подготовила при спонсорской поддержке. Наши партнеры помогают выпускать материалы на темы, которые им кажутся важными. Например, компании, разделяющие ценности здорового образа жизни, могут поддержать публикации о любительском спорте, вузы и технологические компании — рубрику о науке, а петербургские бренды — истории о городских героях.
Сделать спецпроект с «Бумагой»
Это мы изучаем большие данные. Кто в Петербурге исследует интерес к биткоинам, флешмоб MeToo и производство нефти с помощью data science

Вместе с «Газпром нефтью» «Бумага» рассказывает о петербуржцах, чьи профессии связаны с самыми современными и сложными технологиями. В новом материале — истории специалистов, которые изучают большие данные.

Как data science помогает изучать картины и предсказывать утечки данных или взломы в интернете, почему нужно анализировать человеческое поведение, чтобы создать искусственный интеллект, и что показало исследование твитов с хештегом #MeToo из разных стран?

Сотрудники компаний SEMrush и «Газпром нефти» рассказали «Бумаге», почему решили заниматься data science и насколько сложно работать с терабайтами данных.

Ольга Ломакина

Data scientist в SEMrush

Чем занимаются дата-специалисты?

Data science — наука, которая изучает большие наборы данных, а data scientist — человек, который может найти среди этих данных взаимосвязи и закономерности, предсказывать тренды. Этим, собственно, я и занимаюсь: собираю информацию, выбираю самые интересные данные и нахожу в них изюминку, которую можно развить в крутое исследование. Для этого на языке Python создаю математические модели, которые обрабатывают данные и выдают результаты или прогнозы.

Data science становится всё популярнее и востребованнее — это профессия будущего.

Исследования в этой области охватывают много сфер: например, компьютерное зрение (способность машины распознавать визуальное изображение — прим. «Бумаги»), распознавание речи и искусственный интеллект, который сможет заменить многие существующие профессии. Так, эти технологии помогут распространению беспилотных автомобилей и cменят водителей. Уже сейчас очень хорошо развиваются онлайн-переводчики. Курьеров можно будет заменить автоматической доставкой при помощи дронов. Чтобы всё это запрограммировать и правильно обучить, необходимы математические модели.

Продукты компании SEMrush: интернет-маркетинг, различные данные о социальных медиа, SEO. Я работаю в команде международного PR. Основываясь на наших данных, мы проводим исследования, которые публикуются в различных зарубежных СМИ, медиа: Bloomberg, Reuters, Business Insider, Herald Sun.

Как вы попали на эту работу?

Я полюбила математику еще в детстве, с начальной школы мне хорошо давался этот предмет. По этой причине выбрала специальность, связанную с математикой, а во время учебы в университете узнала о существовании data science — очень творческой математической области, где можно изучать не абстрактные числа, как это делают профессора-математики, а проводить исследования, приближенные к жизни и бизнесу.

Профессия достаточно молодая, она выросла на стыке математики и информатики. Моему собеседованию в SEMrush предшествовало обучение в бакалавриате и магистратуре, прохождение разных курсов, конференций, мероприятий для саморазвития. Я окончила Высшую школу экономики в Москве, профиль — прикладная математика и информатика. В магистратуре училась в петербургской Высшей школе экономики, изучала анализ больших данных в бизнес-экономике и обществе.

В SEMrush мы выбираем темы для исследований, исходя из самых обсуждаемых тем в медиа — либо в технических кругах, либо в крупных американских СМИ.

Например, недавно Business Insider опубликовал результаты наших исследований о криптовалютах. Мы изучили различные зависимости и тренды: как часто люди ищут в поисковике биткоины и другие криптовалюты, как курс биткоина влияет на интерес людей к этой теме и количество поисковых запросов. В том же исследовании сравнивали трафики сайтов, которые занимаются обменом биткоинов. Выяснилось, что сайты бирж криптовалют обгоняют по трафику сайты обычных бирж, на которых торгуют акциями.

В другом исследовании мы проанализировали 8000 сайтов, занимающихся e-commerce (электронной коммерцией — прим. «Бумаги»), из Европы и США. Основываясь на данных SEMrush о трафике, рекламе, технических характеристиках сайтов и прочих данных, подготовили рекомендации для маркетологов, работающих в этой сфере. Например, выяснили, что 56,98 % трафика коммерческих сайтов потребляется с экранов мобильных телефонов.

Кроме того, специалисты SEMrush проводили исследование о том, какие факторы оказывают наибольшее влияние на ранжирование сайта в поисковой выдаче. Оно вызвало большой интерес в SEO-комьюнити. Самые значимые факторы ранжирования, согласно результатам исследования: прямой трафик, время, проведенное пользователем на сайте, и количество страниц, которое пользователь просмотрел за одно посещение сайта.

Из еще не опубликованных наших работ — исследование твитов с хештегом #MeToo, их эмоциональной окраски и других характеристик (хештег появился после обвинений в сексуальных домогательствах Харви Вайнштейна: женщины использовали хештег, рассказывая свои истории, — прим. «Бумаги»). Так, Швеция уделяет особое внимание правам женщин и возглавляет список с наибольшим количеством запросов #MeToo; США и Канада занимают второе и третье места. Большинство твитов с хештегами несут положительную окраску либо нейтральную — и только 15 % выражают негатив. Мы также исследовали популярность людей, интерес к которым существенно возрос в связи с событиями #MeToo. После речи Опры Уинфри на «Золотом глобусе» (на церемонии она выступила в поддержку жертв сексуальных домогательств — прим. «Бумаги») количество поисковых запросов с ее именем увеличилось в шесть раз.

Другой пример: мы проанализировали составы и архивы крупных СМИ — washingtonpost.com, foxnews.com, huffingtonpost.com и других — и изучили темы и тренды: о чем говорят и пишут в обществе. Сейчас работаем над результатами.

Что самое сложное в вашей профессии?

Нужно всегда быть в тренде: область очень быстро развивается, постоянно появляются новые научные статьи и методы, за которыми нужно следить и которые необходимо держать в голове. В определенный момент эти методы могут помочь тебе решить какую-то конкретную задачу гораздо лучше, чем те, которые были актуальны полгода назад.

Объем данных зависит от исследования: бывают исследования данных за десять лет или, например, за последний месяц. Для больших исследований мы можем проанализировать данные 10 тысяч доменов и миллиона — ограничений нет. Количество затраченного времени также зависит от задачи: иногда можно справиться буквально за пару дней, а если исследование серьезнее, работа над ним может длиться около одного-двух месяцев.

Почему эту работу не может выполнить кто угодно?

Нельзя прийти с улицы, пройти курсы за две недели и научиться этой профессии. В лучшем случае, если ты прекрасный математик и информатик, можно изучить эту специальность, думаю, за два месяца. Кроме того, нужно решать очень много практических задач, чтобы понять всю суть, — это приходит с опытом.

Стоит ли заниматься этим делом в Петербурге?

Этой профессией можно заниматься в любой точке мира, если там есть интернет. При этом мне нравится жить и работать в Петербурге, потому что здесь очень крутое data-science-комьюнити.

Здесь data science занимается большое количество людей, проходят различные встречи. Например, ODS SPb Meetup и SPBDSM Meetup, а также дата-завтрак, который проходит каждый четверг в 9:30 в кафе Bonch. На всех этих встречах — формальных и неформальных — можно пообщаться с коллегами из других компаний, обменяться опытом.

Еще в Петербурге проходят data-science-хакатоны, например, из недавних — хакатон AI Hack. Организаторы предлагали выбрать одну из пяти задач. Мы с командой решали задачу прогнозирования оттока клиентов «Газпром нефти»: по предоставленным ею данным необходимо было разработать алгоритм выявления клиентов, которые, начиная со следующего месяца, не будут заправляться на АЗС. Мы вышли в топ-10 на Kaggle (платформа, которая проводит соревнования для исследователей в сфере data science — прим. «Бумаги») и представили презентацию своего решения.

Фото: Олег Савунов

Никита Куприянов

Начальник отдела исследования и разработки в Центре цифровых инноваций «Газпром нефти»

Как data science помогает развитию бизнеса?

Деятельность Центра цифровых инноваций сконцентрирована на бизнес-процессах логистики, переработки и сбыта. Зачастую для решения задач, которые перед нами ставит бизнес, применяется машинное обучение и анализ данных.

Например, возьмем производство абстрактного нефтепродукта. Есть план: что и в каком количестве необходимо произвести в месяц. Производство может работать с предельной загрузкой, но с перерасходом электроэнергии и износом оборудования, а может эффективно и оптимально расходовать ресурсы. Задача специалистов data science — разработать рекомендательные системы для эффективного управления отдельной установкой и системами установок. Большая задача — построить «цифровых двойников». Они позволяют прогнозировать, как поведет себя та или иная установка под влиянием внешних факторов, — например, выход смежного оборудования из строя или внеплановая остановка производства.

Оборудование оснащается измерительными приборами, которые генерируют множество различных сигналов, характеризующих его состояние: температура, загруженность, количество потребляемой энергии и так далее. Потенциально все параметры можно анализировать. Специалист по data science должен определить, какие из этих параметров необходимы для решения определенной задачи (например, выхода оборудования из строя) и правильно подобрать модель, которая позволила бы с помощью этих данных предсказать момент выхода оборудования из строя.

Как вы попали на эту работу?

В моей жизни об искусственном интеллекте все заговорили, когда сняли фильм «Терминатор». Тогда я впервые задумался о существовании машины, которая была бы способна мыслить, но это были детские впечатления. Более углубленное знакомство с AI (artificial intelligence — искусственный интеллект — прим. «Бумаги») я получил на занятиях по предмету «Искусственный интеллект» в ЛЭТИ. Я полагал, что это будет крайне интересно, и с нетерпением ждал лекций. Но в итоге разочаровался. Оказалось, что искусственный интеллект — это просто достаточно сложный математический аппарат. И всё. Сакральный смысл был утерян.

Позже мое внимание привлекла информационная безопасность. Тогда модной темой был анализ поведения пользователей в сети. На сегодняшний день угрозы в интернете выявляются не только при помощи стандартных алгоритмов, но и при помощи искусственных нейронных сетей. На базе трафика нейронная сеть может охарактеризовать «поведение» человека в интернете: представляет ли он и его деятельность опасность для общества или информационных систем.

Оценив потенциал направления, я окончательно решил заняться data science и начал осваивать эту тему самостоятельно: читал литературу, проходил курсы в интернете, писал простейшие модели. С тех пор я уже около пяти лет занимаюсь data science.

Сфера развивается очень быстро, появляются новые модели. Жаль, что большинство выдающихся разработок принадлежит зарубежным компаниям. Например, DeepMind (британская корпорация, которая занимается искусственным интеллектом; например, в 2016 году их программа для игры в го AlphaGo выиграла матч у чемпиона мира Ли Седоля — прим. «Бумаги»).

Есть у направления и печальные новости. Человек принимает решение, основываясь на жизненном опыте, но такое же решение может принять машина. Искусственный интеллект быстро развивается и на сегодняшний день может принять весьма успешно массу решений за меня. Так, современные магазины выбирают за меня, что мне купить. И мне даже нравятся варианты, которые они предлагают.

Пока, конечно, всё это работает на человека: машина еще не может сама себе поставить задачу. Как только она научится это делать — а мощности дают ей гораздо больше возможностей, чем есть у человека, — нам останется только творчество. Хотя на сегодняшний день искусственный интеллект уже очень неплохо творит: рисует картины и пишет музыку. Насколько это можно назвать искусством, скорее уже философский вопрос.

Недавно ученые мира в сфере data science подписали договор о том, что они не будут разрабатывать оружие с использованием искусственного интеллекта. Это один из шагов, который позволит нам посмотреть на результаты разработки самостоятельного искусственного интеллекта — и при этом остаться в живых. Илон Маск говорит о том, что искусственный интеллект несет опасность, и нам следует об этом помнить.

Почему эту работу не может выполнить кто угодно?

Сейчас это очень перегретая область. Я сужу по тем людям, которые приходят ко мне на собеседования. Большинство претендентов на позицию data scientist знают минимальный набор алгоритмов, шаблонные модели и сразу идут на рынок. Зачастую это способствует снижению производительности решений.

Что самое сложное в вашей профессии?

Самое сложное — это понять, как работает та или иная модель, математический аппарат, почему он делает те или иные выводы. Безусловно, для того, чтобы это понимать, нужно уделять массу времени изучению моделей и областям их применения.

Стоит ли заниматься этим делом в Петербурге?

Петербург — очень хороший город, и здесь замечательная атмосфера для работы. Но в этом смысле всё зависит не от города, а от сообщества.

С точки зрения статистики в Москве гораздо больше людей — и на единицу площади приходится больше талантливых ребят.

Кроме того, чем больше людей живет в городе, тем выше вероятность, что там откроется крупная компания, куда приглашают на работу и съезжаются люди из небольших регионов. Компаний, для которых анализ данных является релевантной задачей, в Москве, мне кажется, больше. Как и стартап-тусовок. А там, где стартапы, там и новые технологии, и интересные задачи.

Пять вещей, которые отличают вашу профессию

1.

Нельзя изучить науку о данных без глубоких познаний в математике и информатике

Ольга Ломакина: Для этой работы необходим технический склад ума, аналитическое мышление, знание математики и языка программирования, на котором можно реализовывать разные математические модели. В зависимости от компетенции можно выделить конкретные математические аспекты или языки программирования.

2.

С помощью больших данных можно предсказывать преступления

Никита Куприянов: Например, есть так называемый Darkweb, и есть компании, которые на базе анализа данных в Darkweb предсказывают утечку данных в банках или их потенциальный взлом. Это достаточно сложная задача с использованием искусственного интеллекта. Такая информация, как вы понимаете, стоит очень дорого — и рынок готов за нее платить.

3.

Эта профессия позволяет работать в разных сферах: от медицины до искусства

Ольга Ломакина: Например, в медицине можно анализировать рентгеновские снимки и ставить по ним диагнозы, а в искусстве — определять авторство картин, генерировать музыку или стихи. Data science — по моему мнению, одно из самых творческих направлений в технической сфере: чтобы выбрать подходящий метод и правильно интерпретировать полученные данные, необходимо проявить фантазию.

4.

Специалист должен уметь решать задачи нестандартно

Никита Куприянов: Если специалист умеет строить только шаблонные модели, он не сможет решить задачу, о которой не написано в интернете, и всё закончится плохо. Мне хотелось бы решать именно такие задачи — те, которые на сегодняшний день еще никто не решил.

5.

Чтобы собрать данные для искусственного интеллекта, нужно анализировать человеческое поведение

Ольга Ломакина: Например, чтобы роботы имитировали речь или написание музыки, сначала нужно собрать данные о человеческом поведении, проанализировать их, а затем уже запрограммировать.

Если вы нашли опечатку, пожалуйста, сообщите нам. Выделите текст с ошибкой и нажмите Ctrl + Enter.

Спасибо!

Теперь редакторы в курсе.