Какие технологические навыки ищут работодатели в аналитиках данных? Как они соотносятся с навыками, желаемыми для инженеров данных и ученых данных?
Я проанализировал онлайн списки вакансий с января 2020 года, чтобы найти ответы. В этой статье я поделюсь ответами и предложу предлагаемый путь обучения для начинающих аналитиков данных.
Это моя третья статья, в которой рассматриваются технические навыки на позициях с интенсивным использованием данных.
Без лишних слов, вот лучшие 10 технологий из списков вакансий аналитика данных по состоянию на январь 2020 года.
Роль аналитика данных
Аналитики данных превращают данные в информацию. Они играют жизненно важную роль, делая данные действенными для лиц, принимающих решения. ?
Аналитики данных часто берут данные, предоставленные инженерами данных, анализируют их и дают рекомендации. Они создают визуализации для отображения своих результатов в информационных панелях и презентациях. ?
В отличие от исследователей данных, аналитики данных обычно не создают прогностические модели, основанные на алгоритмах машинного обучения.
Вот расширенная диаграмма, показывающая 30 наиболее распространенных технологий.
Вот те же данные в табличной форме.
Многие другие ключевые слова технологии были найдены; это были 30 самых высоких результатов. Давайте посмотрим на самые распространенные технологии.
SQL — это сокращение от языка структурированных запросов. Он отображается в более чем половине всех списков. SQL используется для работы с реляционными базами данных. SQL поставляется во многих вариантах, включая MySQL, Oracle, SQL Server, PostgreSQL и SQLite. Каждая версия имеет большую часть одного и того же основного API. Есть качественные бесплатные предложения.
Excel почти так же распространен, как SQL. Это доминирующая программа электронных таблиц. Это часть пакета программных средств Microsoft Office 365 . Хотя он не может обрабатывать огромные объемы данных, такие как базы данных SQL, Excel отлично подходит для быстрого анализа. Google Sheets — это конкурент с бесплатной версией и схожими основными функциями.
Tableau появляется примерно в четверти списков. Это программное обеспечение для бизнес-аналитики, позволяющее легко создавать визуализации и информационные панели. Возможности визуализации в Tableau намного лучше, чем в Excel. У Tableau есть бесплатная публичная версия, но если вы хотите сохранить конфиденциальность данных, вам нужно выложить деньги.
Python появляется примерно в четверти списков. Это очень популярный бесплатный язык программирования с открытым исходным кодом для работы с данными, веб-сайтами и сценариями. Это основной язык для машинного обучения. ?
R также находится в более чем 20% списков. Это популярный бесплатный язык с открытым исходным кодом для статистики, особенно в научных кругах.
Сравнение с Data Engineer и Data Scientist
Общее количество списков составило 16 325 для Data Analyst , 12 013 для Data Engineer и 9 396 для Data Scientist. Таким образом, аналитические работы относительно распространены. ?
В приведенной ниже таблице показаны 10 наиболее распространенных технологий для списков аналитиков данных. Баллы за списки данных исследователей и инженеров данных также отображаются для каждого ключевого слова.
Несколько основных моментов:
SQL очень популярен для всех трех рабочих мест.
Excel более чем в четыре раза чаще встречается в списках аналитиков данных, чем списки ученых и инженеров данных.
Python, хотя он встречается примерно в четверти списков аналитиков данных, примерно в три раза более популярен в списках вакансий исследователей данных и инженеров данных.
R гораздо реже встречается на должностях аналитика данных и инженера данных, чем в списках работы ученого.
PowerPoint гораздо чаще встречается в списках аналитиков данных.
Что касается тенденций, мой анализ списков вакансий исследователей данных показал, что и R, и SAS имели большие падения популярности с 2018 по 2019 годы.
Стоит отметить, что в списках вакансий инженера данных было упомянуто гораздо больше технологий, чем в списках работы аналитика данных.
Совет
Если вы хотите стать аналитиком данных или стать более конкурентоспособным, я предлагаю вам изучить следующие технологии в порядке приоритета.
Учитесь Excel . Это быстрее, чем SQL. Я знал Excel по школе и по работе, но научился лучше, готовясь к сертификационному экзамену Microsoft Excel.
Выучи Табло. Tableau позволяет быстро создавать великолепные визуализации с помощью интерфейса перетаскивания.
Покажите, вы можете сделать презентацию PowerPoint . Есть много MOOC, которые обучают Microsoft PowerPoint.
Если вы продемонстрировали, что можете использовать вышеуказанные технологии для анализа и общения, вы должны быть достойным кандидатом на многие должности начального уровня. ?
Если вы знакомы с вышеперечисленными навыками и хотите освоить новые навыки или получить право на большее количество должностей, я предлагаю вам изучить Python . Python отлично подходит, если вы хотите перейти к проектированию данных и науке о данных. ?
Книга My Memorable Python предназначена для начинающих. Он доступен для Kindle и печатной копии с Amazon, а также в форме .epub и .pdf здесь .
Биткойн и криптовалюта взяли мир штурмом в 2018 году, и за этот период мы стали свидетелями его растущего увлечения финансовыми действиями, такими как обмен валюты. Тем не менее, Биткойн — не совсем новая концепция. Эта цифровая валюта, введенная в 2008 году, представляет собой применение технологии Blockchain, инновации группы людей с псевдонимом Сатоши Накамото.
Технология Blockchain, возможно, станет следующей по величине вещью после Интернета в мире технологий не только из-за применения Биткойн, но и для его другого потенциального использования. Сегодня компании находятся на грани создания децентрализованного Интернета с использованием технологии Blockchain.
Хотя сегодня мы много говорим о биткойнах, блокчейнах и других технических жаргонах, лишь немногие из нас знают о том, как он работает и почему он стал ажиотажем? Следовательно, в этом блоге мы обсудим основы технологии Blockchain и ее приложений.
Введение в технологию Blockchain
Для непрофессионала Blockchain — это открытая финансовая книга или запись транзакций, где каждая транзакция аутентифицируется и авторизуется. Блокчейн спроектирован как децентрализованная сеть из миллионов компьютеров, которые обычно называют «узлами». Это распределенная архитектура базы данных, в которой каждый из узлов играет роль администратора сети, которая добровольно присоединяется к сети. Поскольку в архитектуре Blockchain отсутствует централизованная информация, следовательно, взломать ее буквально невозможно.
Архитектура блокчейна поддерживает растущий список упорядоченных записей, который известен как блоки. Каждый блок поддерживает временную метку и ссылку на предыдущий блок.
Как работает блокчейн?
Рабочие элементы технологии Blockchain:
Сеть P2P
Криптографическое хеширование
Алгоритмы структуры данных
Распределенный сервер отметок времени
Цифровой подписи
Автоматическое, но условное выполнение скриптов
Обзор процесса блокчейна
В потоке блокчейна обмен данными называется транзакцией. Когда происходит новая транзакция или модификация существующей транзакции, большинство узлов в сети Blockchain выполняют алгоритмы для оценки и проверки этого отдельного блока. Здесь цифровая подпись, связанная с транзакцией, подписывает и авторизует транзакцию в цифровой форме. Он состоит из двух криптографических ключей, известных как открытый ключ и закрытый ключ. Закрытый ключ похож на пароль для учетной записи.
Если подпись и история транзакции действительны, то проверенная запись этой транзакции добавляется в бухгалтерскую книгу (консолидированные записи всех обмененных данных ) . Эта проверенная запись называется блоком .
Как блок добавляется в блокчейн?
Технология Blockchain работает на алгоритме структуры данных и криптографическом хешировании. Для добавления в блокчейн блок должен иметь ответ на криптографическую хеш-функцию, которая действительно является сложной математической проблемой, которую необходимо решить. Возможным решением такой проблемы является случайное число, которое необходимо объединить с предыдущим содержимым блока.
Хотя в идеале компьютер может решить эту сложную проблему, сгенерированную алгоритмом, в течение года, тем не менее, поскольку сеть Blockchain состоит из огромного количества компьютеров, вероятность решения проблемы становится высокой. Следовательно, для решения таких проблем в среднем требуется 10 минут. Теперь узел, который решает хэш-код, получает право добавить новый блок в цепочку.
Как только одна транзакция завершена, она создает безопасный и уникальный хэш-код с использованием криптографической техники хеширования, которая связывает транзакцию со следующим блоком. Таким образом, он размещает блоки один за другим, чтобы организовать цепочку, связанную со временем. Следовательно, это известно как Blockchain.
Если большинство блоков запрещает ввод новой или измененной транзакции, она не будет добавлена в бухгалтерскую книгу. Таким образом, Blockchain работает без единого авторитета и в модели распределенного консенсуса. В результате Blockchain обладает встроенной надежностью без единого объекта, который контролирует его поток, и без единой точки отказа. Таким образом, архитектура в целом долговечна.
Что такое майнинг-пул в технологии блокчейн?
Как мы упоминали выше, компьютеру требуется около одного года, чтобы решить блок. Следовательно, узлы вместе составляют группы. Таким образом они делят количество предположений на хеш-код для решения следующего блока. В результате это ускоряет процесс. Эти группы называются майнинг пулами .
Какие существуют виды блокчейна?
Технологии Blockchain можно разделить на три типа в зависимости от принципов работы:
Public Blockchain — Эфириум, Биткойн, Литкойн
Частный блокчейн — внутри организации
Объединенный блокчейн — R3, EWF, B3I
Особенности публичного блокчейна
Он работает на основе согласованных алгоритмов Proof of Work (PoW) и использует соответствующие протоколы. Публичный блокчейн не нуждается в каком-либо разрешении, так как является открытым исходным кодом.
Вы можете определить новые блоки с их существующим состоянием, так как это открытый исходный код. Также вы можете скачать код и проверить транзакции в сети.
Это делает возможным транзакции по всей сети.
Public Blockchain позволяет прозрачные транзакции анонимным или псевдонимным способом.
Особенности приватного блокчейна
Приватный Blockchain отделяет основной протокол Blockchain от уровня интеллектуального контракта.
Используя приватный блокчейн, вы можете открыть область программируемых транзакций, которая обычно называется Smart Contracts, а также онлайн-рынки.
Особенности федеративного блокчейна
Руководство группы управляет им.
Проверка транзакций с использованием технологии федеративного блокчейна невозможна.
Он имеет более высокую масштабируемость и конфиденциальность.
Это быстрее, чем другие технологии Blockchain.
Он управляется предварительно выбранным набором узлов.
Это уменьшает избыточность данных наряду с транзакционными издержками.
Замена устаревших систем с помощью этого проще.
Каковы различные применения технологии блокчейн?
Технология Blockchain широко используется в приложениях Fintech. Наряду с приложением Fintech технология Blockchain используется в следующих приложениях для создания ценности в бизнесе.
Смарт Контракты
Умные контракты — это способ обмена ценностями с прозрачностью, когда третьи стороны не участвуют в процессе транзакции . Распределенный регистр, такой как технология Blockchain, позволяет заключать контракты на рынке при соблюдении указанных условий. Ethereum — это общедоступная технология Blockchain с открытым исходным кодом, которая может эффективно использовать умные контракты. С текущей разработкой технологии Blockchain умные контракты могут быть автоматизированы с использованием биткойнов.
Децентрализованная совместная экономика
Благодаря децентрализованной сети технология Blockchain позволяет осуществлять одноранговые платежи, что в конечном итоге приводит к действительно децентрализованной экономике совместного использования.
Crowdfunding
С ростом популярности Crowdfunding технология Blockchain выводит этот интерес на новый уровень, потенциально развивая краудсорсинговые венчурные фонды. DAO на основе Ethereum (Децентрализованная автономная организация) является одним из таких примеров краудфандинга, который привлек 200 миллионов долларов США в течение двух месяцев. Не говоря уже о том, что это была еще одна форма умных контрактов.
Прозрачное управление
Прозрачность имеет большое значение, когда вы работаете в бизнесе, и в этом контексте технология Blockchain меняет ландшафт управления. Поскольку эта технология распределенных баз данных обеспечивает полностью прозрачные и доступные контракты, организации находятся на грани принятия решений на основе Blockchain. Мы можем видеть, что интеллектуальные контракты на основе Ethereum используются для поддержки цифровых активов или организационной информации для практики управления данными.
Использование в цепочке поставок
Технология Blockchain обеспечивает прозрачность в продуктах посредством автоматически генерируемых отметок времени, в которых указывается место и время создания продукта. Это помогает повысить надежность бизнеса и подтвердить его подлинность.
Расширение возможностей Web 3.0 для хранения файлов
Концепция децентрализации технологии Blockchain породила веб 3.0, который принесет революционные изменения в мир Интернета. Теперь это будет Blockchain Internet, который обеспечил концепцию распределенного хранения файлов. Вместо диска Google он позволил нам использовать такие технологии, как Межпланетная файловая система (IPFS). Основное преимущество распределенного хранилища файлов — поскольку данные не централизованы, они защищают данные от взлома.
Легкость процесса KYC и AML
Знай своего клиента (KYC), и борьба с отмыванием денег (AML) — две общепринятые практики, которые могут быть потенциально полезны при адаптации к технологии Blockchain. Поскольку финансовым учреждениям в настоящее время необходимо выполнить интенсивный многоэтапный процесс для каждого из своих клиентов, это является дорогостоящим делом для этих учреждений. Тем не менее, если в этот процесс будет введен блокчейн, он может снизить затраты за счет проверки клиентов между учреждениями, одновременно повышая эффективность анализа и мониторинга.
Каковы основные преимущества технологии Blockchain?
Технология Blockchain получила широкое признание благодаря ряду преимуществ, которые она предоставляет. Давайте посмотрим на основные преимущества технологии блокчейн:
Поскольку центральный орган по контролю за операциями отсутствует, это идеальный регистр для совместных предприятий.
Цифровая подпись и процесс проверки, используемые в технологии Blockchain, помогают предотвратить мошенническую деятельность.
Как и в архитектуре Blockchain, нет централизованной информации, которая предотвращает потерю любой информации.
Сегодняшний бизнес управляется данными. В частности, большие данные и ИИ, которые постепенно развиваются, формируют повседневные бизнес-процессы и играют ключевую роль в принятии решений в области бизнес-аналитики. Благодаря достижениям в области искусственного интеллекта и когнитивных вычислений с использованием больших данных в качестве канала, компании теперь могут получать информацию о тенденциях бизнеса и поведении потребителей в режиме реального времени, чтобы получить преимущество над другими конкурентами.
Согласно прогнозам Forrester, эта тенденция бизнес-модели прогнозирует более широкое распространение больших данных и ИИ среди 70% предприятий по всему миру; что на 51% больше, чем в 2017 году. Следовательно, это явный признак того, что искусственный интеллект и большие данные трансформируют деловой мир. Так что, если вам интересно узнать о влиянии больших данных и ИИ на бизнес, то этот блог объяснит вам подробно.
Потенциальное экономическое влияние искусственного интеллекта и больших данных
В то время как большие данные играют роль постоянно растущего резервуара данных, они помогают ИИ стать разрушительной силой в глобальной экономике. Предполагается, что к 2030 году ИИ может внести в мировой ВВП до 15,7 трлн долларов. Вклад в 9,1 трлн долларов — это побочные эффекты потребления, тогда как 6,6 трлн долларов — увеличение производительности.
В каких областях большие данные и ИИ могут помочь бизнесу?
С самого начала этого блога мы говорим, что большие данные и ИИ способствуют развитию бизнеса. Давайте рассмотрим основные области, в которых большие данные и ИИ могут помочь бизнесу.
1. Улучшенная модель прогнозирования с помощью бизнес-аналитики
Большие данные помогли преодолеть ограничения бизнес-аналитики. Благодаря анализу больших данных с использованием искусственного интеллекта анализ предприятий стал более эффективным и простым, чем раньше. Большие данные и ИИ вместе превратили бизнес-аналитику из реактивного в проактивное бизнес-решение. Что это значит на самом деле?
Объясним, что с распространением различных источников больших данных, таких как интеллектуальные устройства, бизнес устройств IoT больше не интересуется статическими отчетами, генерируемыми программным обеспечением BI, и стремится к более эффективному использованию оперативных данных в реальном времени. В этом контексте, благодаря вмешательству больших данных, программное обеспечение BI развилось в три области:
Описательная аналитика
Предписательная аналитика
Прогнозная аналитика
Этот огромный прогресс в аналитике больших данных с использованием искусственного интеллекта позволяет бизнес-аналитикам вносить свой вклад в более зрелые решения. В то время как большие данные обрабатывают неструктурированные данные и направляют их в системы ИИ, с помощью алгоритмов ИИ разбивает эти исходные данные на практические идеи, которые затем используются для процесса принятия решений. Это очень эффективно для прогнозирования поведения потребителей.
2. Большие данные и ИИ будут использовать данные социальных сетей в качестве бизнес-канала
В ближайшие годы данные социальных сетей будут играть важную роль в расширении возможностей продаж. В то время как инструменты больших данных будут получать и обрабатывать данные и передавать их в системы ИИ, используя методологии поведенческого таргетинга, ИИ может точно и эффективно задействовать маркетинговый стек. Следовательно, Большие данные и ИИ вместе будут разумно определять, ищет ли какой-либо потребитель или платформа какое-либо программное обеспечение для управления клиентами (CRM). Такая информация чрезвычайно полезна для повышения качества обслуживания клиентов и управления ими.
3. Внедрение интеллектуальных адаптивных продуктов
Большие данные и ИИ вместе не только активно улучшают качество обслуживания клиентов, но и побуждают компании создавать более автоматизированные продукты, отвечающие потребителям. Благодаря использованию и внедрению аналитики больших данных с использованием искусственного интеллекта в наши дни компании достаточно зрелы, чтобы сосредоточиться на разработке своих продуктов таким образом, чтобы они могли удовлетворить будущие потребности своих клиентов.
4. Аналитика Chatbots помогает в росте онлайн-продаж
Другой интересной и важной частью Big data and AI является аналитика Chatbots, которая стала неотъемлемой частью любого онлайн-бизнеса. Это надежный и интеллектуальный результат анализа больших данных и искусственного интеллекта. Здесь данные берутся из нескольких источников, и после анализа их с помощью анализа больших данных вероятные запросы и ответы поступают в программы чат-ботов с использованием ИИ. Наконец, чат-боты действуют как служба поддержки клиентов 24 * 7, тем самым ускоряя процесс продажи бизнеса.
5. Более безопасный бизнес с поддержкой AI
Поскольку цифровой мир испытал изощренную поддержку различных современных технологий, он также увеличил число профессиональных мошенников, которые увеличили финансовый риск для бизнеса. Благодаря ИИ, который наделил бизнес интеллектуальными инструментами ИИ, такими как распознаватель речи, распознавание видео, естественный язык и многое другое, чтобы защитить их от мошеннических схем.
6. Изменение ландшафта промышленного инжиниринга с точки зрения эффективности
Сегодня повышение эффективности в промышленном машиностроении практически невозможно без больших данных. В промышленном инжиниринге с помощью анализа больших данных инженеры могут определить ограничения бизнеса и то, как он связан с бизнесом. Таким образом, они могут быстро устранить ограничения, что в конечном итоге помогает значительно повысить производительность и пропускную способность бизнеса.
7. Снижение затрат на управление запасами
Управление запасами является дорогостоящим делом, особенно если вы не уверены, что производить и сколько это должно быть? Тем не менее, с помощью анализа больших данных теперь можно прогнозировать будущие тенденции и события в отрасли. Не говоря уже о том, что это помогает в организованном управлении запасами, которые отвечают требованиям клиентов без чрезмерных затрат. Прогнозирование продаж дает бизнесу глубокий анализ идеального времени покупки запасов.
8. Быстрое преобразование различных отраслей с помощью ИИ
С ИИ мы можем наблюдать, как шире внедряется автоматизация в различных отраслях. Кроме того, искусственный интеллект, применяемый ИИ, улучшил процессы в таких отраслях, как биологические науки, здравоохранение, финансы и многие другие. Сегодня роботы участвуют в клинических операциях для измерения более точных и быстрых результатов. Клиническое вмешательство ИИ ускорило изобретения новых лекарств и лекарств, сделав систему здравоохранения более доступной.
9. AI предлагает лучшее понимание данных на аналитических моделях
Поскольку большие данные определяют аналитические модели, ИИ, кроме того, делает модель принятия решений более интеллектуальной, добавляя в нее часть автоматизации. Автоматизация, сгенерированная ИИ, обеспечивает обратную связь данных в режиме реального времени, что улучшает предписывающие модели, в результате чего следующее предписанное решение автоматически лучше, чем предыдущие. Эта исключительная способность ИИ помогает принимать бизнес-решения с большей выгодой.
Как интеллектуальная бизнес-аналитика упрощает бизнес?
Основными преимуществами использования BI-систем на базе AI является то, что они преобразуют бизнес-данные в
просто
точный
В режиме реального времени
повествовательный
BI-инструменты на базе AI как замена анализа панели инструментов
Теперь, с беспрецедентным ростом больших данных из разных источников, анализ приборной панели такого огромного куска данных становится практически невозможным. В этом случае инструменты BI на базе AI помогают переварить все данные вместе с индивидуальным подходом к этому.
Избежать от перегрузки больших данных
Большие данные растут с невероятной скоростью, поэтому они легко могут затруднить деловые операции. Однако инструменты бизнес-аналитики на основе AI могут помочь разбить огромные порции данных, чтобы получить управляемую информацию.
Анализ бизнес-данных в режиме реального времени
Анализ больших данных работает наиболее эффективно, если бизнес может принимать стратегические решения вовремя. Но из-за двух важных факторов, связанных со скоростью и объемом больших данных, это действительно сложно. Тем не менее, благодаря бизнес-аналитике, управляемой искусственным интеллектом, бизнес может использовать мощные инструментальные панели, которые обеспечивают своевременное оповещение и понимание бизнеса для принятия ключевых решений.
Большие данные и искусственный интеллект дополняют друг друга в деловом мире
Мы уже упоминали в предыдущих разделах, что большие данные действуют как топливо для ИИ. Аналитика больших данных с использованием искусственного интеллекта делает его все более мощным для получения реальных знаний. Чем больше больших данных поступает в системы ИИ, тем выше будет интеллект системы ИИ.
С другой стороны, с увеличением принятия Интернета вещей и достижений в глубоком обучении , более подключенные устройства генерации данных делают глобальную информацию все более оцифрована. Эти данные используются не только для хранения. Вместо этого он анализируется с использованием систем искусственного интеллекта.
Появление больших данных и преимуществ AI в компаниях мира технологий
Дело не в том, что только большие отрасли получают выгоду от появления больших данных и ИИ. Компании, предоставляющие большие данные и услуги AI, также находятся в хорошем положении благодаря своим потенциальным преимуществам. Компании подпадают под это
Компании с большими проприетарными наборами данных
Кто разрабатывает передовые программы ИИ
Кто строит компьютерное оборудование для выполнения сложных вычислений для ИИ
Компании по разработке ИИ с внутренними возможностями ИИ
Компании, предоставляющие облачный сервис AI, который обычно называют AI-as-a-Service (AIaaS)
Компании, которые производят такие устройства, как память, полупроводники и другие сопутствующие продукты, связанные с приложениями для искусственного интеллекта.
Компании, которые работают над технологиями квантовых вычислений, которые будут коммерциализированы в ближайшем будущем. Ожидается, что эти компании будут играть важную роль на рынке больших данных и искусственного интеллекта.
Что такое наука о данных? Аналитик данных — Data Scientists
— Данные! Где данные? — раздраженно восклицал он. — Когда под рукой нет глины, из чего лепить кирпичи? Артур Конан Дойль
Наука о данных
Аналитиков данных (data scientists) называют «самой сексуальной профессией XXI века». Очевидно тот, кто так выразился, никогда не бывал в пожарной части.
Тем не менее, наука о данных (data science) — это действительно передовая и быстроразвивающаяся отрасль знаний, а чтобы отыскать обозревателей рыночных тенденций, которые возбужденно предвещают, что через 10 лет нам потребуются на миллиарды и миллиарды больше аналитиков данных, чем мы имеем на текущий момент, не придется долго рыскать по Интернету.
Но что же это такое — наука о данных? В конце концов нельзя же выпускать специалистов в этой области, если не знаешь, что она собой представляет. Согласно диаграмме Венна, которая довольно известна в этой отрасли, наука о данных находится на пересечении:
навыков алгоритмизации и программирования;
знаний математики и статистики;
профессионального опыта в предметной области.
Развивать свои навыки алгоритмизации и программирования лучше всего решая прикладные задачи.
Для работы в области науки о данных разработана масса программных библиотек, платформ, модулей и инструментариев, которые эффективно реализуют наиболее общие алгоритмы и приемы, применяемые в науке о данных. Тот, кто станет аналитиком данных, несомненно, будет досконально знать библиотеку для научных вычислений NumPy, библиотеку для машинного обучения scikitlearn, библиотеку для анализа данных pandas и множество других. Они прекрасно подходят для решения задач, связанных с наукой о данных. Но они также способствуют тому, чтобы начать решать задачи в области науки о данных, фактически не понимая ее.
По поводу того, какой язык программирования лучше всего подходит для обучения науке о данных, развернулась здоровая полемика. Многие настаивают на языке статистического программирования R. Некоторые предлагают Java или Scala. Кто-то считает, что Python — идеальный вариант.
Python обладает несколькими особенностями, которые делают его особенно пригодным для изучения и решения задач в области науки о данных:
он бесплатный;
он относительно прост в написании кода (и в особенности в понимании);
он располагает сотнями прикладных библиотек, предназначенных для работы в области науки о данных.
Господство данных
Мы живем в мире, страдающем от переизбытка данных. Веб-сайты отслеживают любое нажатие любого пользователя. Смартфоны накапливают сведения о вашем местоположении и скорости в ежедневном и ежесекундном режиме. «Оцифрованные» селферы носят шагомеры на стероидах, которые не переставая записывают их сердечные ритмы, особенности движения, схемы питания и сна. Умные авто собирают сведения о манерах вождения своих владельцев, умные дома — об образе жизни своих обитателей, а умные маркетологи — о наших покупательских привычках.
Сам Интернет представляет собой огромный граф знаний, который, среди всего прочего, содержит обширную гипертекстовую энциклопедию, специализированные базы данных о фильмах, музыке, спортивных результатах, игровых автоматах, мемах и коктейлях… и слишком много статистических отчетов (причем некоторые почти соответствуют действительности!) от слишком большого числа государственных исполнительных органов, и все это для того, чтобы вы объяли необъятное.
В этих данных кроятся ответы на бесчисленные вопросы, которые никто даже не думает задавать. Эта книга научит вас, как их находить.
Что такое наука о данных?
Наука о данных — это практическая дисциплина, которая занимается изучением методов обобщаемого извлечения знаний из данных. Она состоит из различных составляющих и основывается на методах и теориях из многих областей знаний, включая обработку сигналов, математику, вероятностные модели, машинное и статистическое обучение, программирование, технологии данных, распознавание образов, теорию обучения, визуальный анализ, моделирование неопределенности, организацию хранилищ данных, а также высокоэффективные вычисления с целью извлечения смысла из данных и создания продуктов обработки данных.
Существует шутка, что аналитик данных — это тот, кто знает статистику лучше, чем специалист в области информатики, а информатику — лучше, чем специалист в области статистики. Не утверждаю, что это хорошая шутка, но на самом деле, некоторые аналитики данных действительно являются специалистами в области математической статистики, в то время как другие почти неотличимы от инженеров программного обеспечения. Некоторые являются экспертами в области машинного обучения, в то время как другие не смогли бы машинно обучиться, чтобы найти выход из детского сада. Некоторые имеют ученые степени доктора наук с впечатляющей историей публикаций, в то время как другие никогда не читали академических статей (хотя, им должно быть стыдно). Короче говоря, в значительной мере неважно, как определять понятие науки о данных, потому что всегда можно найти практикующих аналитиков данных, для которых это определение будет всецело и абсолютно неверным.
Аналитик данных — это тот, кто извлекает ценные наблюдения из запутанных данных. В наши дни мир переполнен людьми, которые пытаются превратить данные в ценные наблюдения.
Например, сайт знакомств OkCupid просит своих членов ответить на тысячи вопросов, чтобы отыскать наиболее подходящего для них партнера. Но он также анализирует эти результаты, чтобы вычислить виды безобидных вопросов, с которыми вы можете обратиться, чтобы узнать, насколько высока вероятность близости после первого же свидания.
Компания Facebook просит вас указывать свой родной город и нынешнее местоположение, якобы чтобы облегчить вашим друзьям находить вас и связываться с вами. Но она также анализирует эти местоположения, чтобы определить схемы глобальной миграции и места проживания фанатов различных футбольных команд. Крупный оператор розничной торговли Target отслеживает покупки и взаимодействия онлайн и в магазине. Он использует данные, чтобы строить прогнозные модели в отношении того, какие клиентки беременны, чтобы лучше продавать им товары, предназначенные для младенцев.
В 2012 г. избирательный штаб Барака Обамы нанял десятки аналитиков данных, которые вовсю копали и экспериментировали, чтобы определить избирателей, которым требовалось дополнительное внимание, при этом подбирая оптимальные обращения и программы по привлечению финансовых ресурсов, которые направлялись в адрес конкретных получателей, и сосредотачивая усилия по выводу соперника из предвыборной гонки там, где эти усилия могли быть наиболее успешными. Существует общее мнение, что эти усилия сыграли важную роль в переизбрании президента, вследствие чего совершенно очевидно, что будущие политические кампании будут все более и более управляемыми данными, ведя к бесконечному наращиванию усилий в области науки о данных и методов сбора данных. И прежде чем вы почувствуете пресыщение, скажем еще пару слов: некоторые аналитики данных время от времени используют свои навыки во благо, чтобы сделать правительство более эффективным, помочь бездомным и усовершенствовать здравоохранение. И конечно же вы не нанесете вреда своей карьере, если вам нравится заниматься поисками наилучшего способа, как заставить людей щелкать на рекламных баннерах.
Полезное о Python
Интерактивная оболочка IPython
Интерактивная оболочка IPython http://ipython.org/ обеспечивает больший функционал, чем стандартная среда. IPython упростит Вам работу.
Библиотека Pandas
Библиотека Pandas (http://pandas.pydata.org/) предоставляет дополнительные структуры данных для работы с массивами данных на языке Python. Ее основная абстракция — это проиндексированный многомерный массив значений DataFrame. Если Вы собираетесь использовать Python для преобразования, разбиения, группирования и управления наборами данных, то Pandas является бесценным инструментом для этих целей.
Библиотека scikit-learn
Библиотека scikit-learn (https://scikit-learn.org/stable/) — это, наверное, самая популярная библиотека для работы в области машинного обучения на языке Python. Она содержит все модели, которые были тут реализованы, и многие другие. В реальной ситуации не следует строить дерево принятия решений «с чистого листа»; всю тяжелую работу, связанную с решением этой задачи, должна делать библиотека scikit-learn. При решении реальных задач в области оптимизации вместо реализации какого-либо алгоритма оптимизации вручную следует положиться на библиотеку scikit-learn, где он уже эффективно реализован.
Библиотеки по Визуализации данных
https://matplotlib.org/ — Matplotlib is a Python 2D plotting library which produces publication quality figures in a variety of hardcopy formats and interactive environments across platforms. Matplotlib can be used in Python scripts, the Python and IPython shells, the Jupyter notebook, web application servers, and four graphical user interface toolkits.
http://seaborn.pydata.org/ — Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics.
https://bokeh.pydata.org/ — Bokeh is an interactive visualization library that targets modern web browsers for presentation. Its goal is to provide elegant, concise construction of versatile graphics, and to extend this capability with high-performance interactivity over very large or streaming datasets. Bokeh can help anyone who would like to quickly and easily create interactive plots, dashboards, and data applications.
1. Подбирайте кадры в сильнейших университетах своей страны, а также в тех вузах, которые успели ввести у себя профильные программы.
2. Изучите состав интернет-сообществ, членов которых объединяет интерес к инструментам работы с данными. Хорошо начать с поклонников языков программирования R и Python.
3. Ищите специалистов по данным на LinkedIn — они почти все там, и вы сможете разобраться, если ли у них необходимые профессиональные навыки.
4. Посещайте конференции специалистов по данным и их неформальные мероприятия.
5. Дружите с венчурными капиталистами, которые за последний год наверняка получили самые разные предложения, связанные с «большими данными».
6. Проводите на специальных сайтах конкурсы вроде соревнований по спортивному программированию, которые устраивают компании Kaggle или Top Coder. Охотьтесь за участниками с самым высоким творческим потенциалом.
7. Если претендент не умеет программировать, отказывайте ему сразу. Необязательно, чтобы человек был специалистом мирового уровня, но хотя бы на «тройку» он справляться должен. К тому же убедитесь, что кандидат может быстро осваивать новые технологии и методики.
8. Удостоверьтесь, что претендент способен увидеть в наборе данных «сюжет» и связно объяснить основную идею, подсказанную данными. Проверьте, насколько он «чувствует» числа и может ли он изложить то, что они говорят, общедоступным языком — визуально или вербально.
9. Подумайте, не слишком ли кандидат далек от мира бизнеса. Плохо, если ему трудно ответить на вопрос, как его работа могла бы помочь вам в решении менеджерских проблем.
10. Спрашивайте соискателей об их любимых идеях и методах анализа, о том, как они совершенствуют свое мастерство. Может, они получили сертификат о прохождении курса обучения в Стэнфорде — онлайнового Machine Learning course или создали онлайновый архив программ, чтобы делиться с другими (скажем, на GitHub)?
Структура системы — это совокупность устойчивых связей объекта, обеспечивающих его целостность и тождественность самому себе, т.е. сохранение основных свойств при различных внешних и внутренних изменениях. С другой стороны, структура системы — частичное упорядочение элементов системы и отношений между ними по какому-либо признаку. Структура невозможна вне системы, равно как и система всегда структурирована.
Структуризация направлена на:
выявление реальных целей системы;
выяснение альтернативных путей достижения этих целей;
достижение взаимосвязей между элементами;
получение возможности моделирования системы.
Переход от системы к структуре может быть осуществлен только при условии, что найдены элементы и их устойчивые отношения. Причем, как правило, существует большое число критериев, по которым выбираются составляющие систему элементы. Таким образом, можно говорить о множественности структур системы. В организациях может быть выделено несколько типовых структур.
Рисунок «Разбиение организации на структурные подсистемы»
Введем несколько определений:
Организационная структура — это структура, элементами которой являются подразделения организации разного уровня иерархии, а отношениями — отношения входимости и руководства-подчинения.
Производственная структура — часть организации, выполняющая задачи оперативного управления производством и обеспечивающая выпуск продукции и/или предоставление услуг.
Функциональная структура — структура, элементами которой являются функции, реализуемые подразделениями предприятия, а отношениями — связи, обеспечивающие передачу между элементами предметов труда.
Информационная структура — совокупность центров производства, сбора, анализа и распространения информационных потоков.
Структура выходов организации — совокупность материальной и нематериальной продукции, являющейся результатом деятельности организации и поставляемой ею во внешнюю (по отношению к ней) среду.
Структура входов организации — совокупность материальной и нематериальной продукции, используемой для осуществления деятельности организации.
Юридическая структура — совокупность бизнес-единиц с множеством организационных, административно-правовых отношений между ними, а также отношений собственности и контроля.
Финансово-экономическая (финансовая) структура — совокупность центров учета с финансовыми потоками между ними.
Штатная структура — состав подразделений и перечень должностей, размеры должностных окладов и фонд заработной платы.
Социальная структура — разбиение персонала организации на группы по социальным показателям.
Территориальная структура — совокупность мест расположения элементов организационной структуры.
Структурный анализ
Структурный анализ является методологической разновидностью системного анализа. Он был разработан в 60-70-х годах XX века Дугласом Т. Россом в виде методологии SADT (Structured Analysis and Design Technique)— технология структурного анализа и проектирования.
В основе структурного анализа лежит выявление структуры как относительно устойчивой совокупности отношений, признание методологического примата отношений над элементами в системе, частичное отвлечение от развития объектов.
Основным понятием структурного анализа служит структурный элемент (объект) — элемент, выполняющий одну из элементарных функций, связанных с моделируемым предметом, процессом или явлением.
Структурный анализ предполагает исследование системы с помощью ее графического модельного представления, которое начинается с общего обзора и затем детализируется, приобретая иерархическую структуру со все большим числом уровней.
Для такого подхода характерны:
разбиение на уровни абстракции с ограничением числа элементов на каждом из уровней (обычно от 3 до 9);
ограниченный контекст, включающий лишь существенные на каждом уровне детали;
использование строгих формальных правил записи;
последовательное приближение к конечному результату.
Цель структурного анализа заключается в преобразовании общих, расплывчатых знаний об исходной предметной области в точные модели, описывающие различные подсистемы моделируемой организации.
Декомпозиция (см. рисунок) является условным приемом, позволяющим представить систему в виде, удобном для восприятия, и оценить ее сложность. В результате декомпозиции подсистемы по определенным признакам выделяются отдельные структурные элементы и связи между ними. Декомпозиция служит средством, позволяющим избежать затруднений в понимании системы. Глубина декомпозиции определяется сложностью и размерностью системы, а также целями моделирования.
Рисунок «Декомпозиция подсистемы организации на структурные элементы»
Методология ARIS также использует декомпозицию и позволяет детализировать предмет моделирования с помощью альтернативных или дополняющих друг друга моделей.
Следует помнить, что ни одна отдельно взятая подсистема не может обеспечить моделирование бизнес-процессов полностью.
Поэтому для получения целостной картины деятельности организации необходимо взять за основу описание одной из выделенных структур и интегрировать его с остальными. Как показывает практика, основой для такой интеграции чаще всего служит функциональная или информационная подсистема.
Любая организация, как правило, имеет большое количество подсистем, поэтому число структурных элементов и связей между ними весьма велико.
Каждый структурный элемент (или объект) и связь обладают определенными свойствами, которые должны быть описаны (см. рисунок).
Одной из разновидностей свойств являются атрибуты. Атрибут — необходимое, существенное, неотъемлемое свойство объекта. Естественно, что разные структурные элементы имеют разные атрибуты.
Каждый объект или связь имеет также набор характеристик (см. рисунок), при помощи которых можно задать количественные и качественные характеристики моделируемых элементов. В частности, для каждой функции можно задать ее имя, уникальный код в проекте, автора, время и дату создания, детальное описание, пример реализации, временные и стоимостные затраты на выполнение данной функции и т. д. Все указанные характеристики объектов и связей формализованы и используются при проведении анализа или составлении отчета.
Рисунок «Характеристики структурных элементов и связей»
Методология структурного анализа
Структурный анализ как совокупность методов моделирования сложных систем вследствие большой размерности решаемых задач должен опираться на мощные средства компьютерной поддержки, обеспечивающей автоматизацию труда системных аналитиков. Такими средствами являются CASE-системы (Computer Aided Software Engineering).
Архитектура большинства CASE-систем основана на парадигме «методология — модель — нотация — средства» (см. рисунок).
Методология структурного анализа представляет методы и средства для исследования структуры и деятельности организации. Она определяет основные принципы и приемы использования моделей. Модель — это совокупность символов (математических, графических и т.п.), которая адекватно описывает некоторые свойства моделируемого объекта и отношения между ними. Нотации — система условных обозначений, принятая в конкретной модели. Средства — аппаратное и программное обеспечение, реализующее выбранную методологию, в том числе построение соответствующих моделей с принятой для них нотацией.
При моделировании систем вообще и, в частности, для целей структурного анализа используются различные модели, отображающие:
функции, которые система должна выполнять;
процессы, обеспечивающие выполнение указанных функций;
данные, необходимые при выполнении функций, и отношения между этими данными;
организационные структуры, обеспечивающие выполнение функций;
материальные и информационные потоки, возникающие в ходе выполнения функций.
Рисунок «Архитектура CASE-систем»
Среди многообразия средств, предусмотренных для проведения структурного анализа, наиболее часто и эффективно применяются:
DFD(Data Flow Diagrams)—диаграммы потоков данных в нотациях Гейна-Сарсона, Йордона-Де Марко и других, обеспечивающие требования анализа и функционального проектирования информационных систем;
STD (State Transition Diagrams) — диаграммы перехода состояний, основанные на расширениях Хартли и Уорда-Меллора для проектирования систем реального времени;
ERD (Entity-Relationship Diagrams) — диаграммы «сущность-связь» в нотациях Чена и Баркера;
Структурные карты Джексона и/или Константайна для проектирования межмодульных взаимодействий и внутренней структуры объектов;
SADT (Structured Analysis and Design Technique) — технология структурного анализа и проектирования;
Семейство IDEF (Integration Definition for Function Modeling).
Семейство IDEF:
IDEFO — методология функционального моделирования, являющаяся составной частью SADT и позволяющая описать бизнес-процесс в виде иерархической системы взаимосвязанных функций;
IDEF1 — методология анализа и изучения взаимосвязей между информационными потоками в рамках коммерческой деятельности предприятия;
IDEF1X — методология информационного моделирования, основанная на концепции «сущность-связь», предложенной Ченом. Применяется для разработки реляционных баз данных и использует условный синтаксис, специально разработанный для удобного построения концептуальной схемы и обеспечивающий универсальное представление структуры данных в рамках предприятия, независимое от конечной реализации базы данных и аппаратной платформы;
IDEF3 — методология документирования технологических процессов, предприятия, позволяющая моделировать их сценарии посредством описания последовательности изменений свойств объекта в рамках рассматриваемого процесса;
IDEF4 — методология объектно-ориентированного проектирования для поддержки проектов, связанных с объектно-ориентированными реализациями;
IDEF5 — методология, обеспечивающая наглядное представление данных, полученных в результате обработки онтологических запросов, в простой, графической форме.
При помощи этих методов могут быть построены логические модели исходной и реорганизованной систем управления организацией.
Понятия модели и моделирования
Создаваемая модель должна давать ответ на следующие вопросы:
Кто из сотрудников организации должен выполнять конкретные функции?
При каких условиях нужно выполнять функцию?
Что должен сделать сотрудник в рамках данной функции?
Каким образом следует ее выполнять?
Какие ресурсы при этом необходимы?
Каковы результаты выполнения функции?
Какие информационные средства нужны?
Каким образом все это согласовать?
Как все это можно осуществить наиболее эффективно?
Как можно изменить или построить бизнес-процесс?
Как снизить риск и повысить эффективность изменений?
Напомним, что модель представляет собой совокупность объектов и отношений между ними, которая адекватно описывает лишь некоторые свойства моделируемой системы.
Модель является лишь одним из многих возможных толкований системы. Это толкование должно устраивать пользователя в данной ситуации, в данный момент времени.
Для модели в общем случае характерны четыре свойства:
уменьшенный масштаб (размер) модели, точнее, ее сложность, степень которой всегда меньше, чем у оригинала. При построении модели сознательно вводятся упрощения;
сохранение ключевых соотношений между разными частями;
работоспособность, т.е. возможность в принципе работать, как оригинал-моделируемый объект (во всяком случае, похожим образом);
Важно также подчеркнуть, что любая модель отражает точку зрения той или иной группы проектировщиков.
Каждой модели присущи свои цели и задачи, и поэтому объект бизнеса, представляющий собой сложный комплексный организм, как правило, описывается некоторым набором моделей, в совокупности образующих общую модель данной бизнес-системы.
Использование множества моделей приводит к необходимости их классифицировать. Обоснованная классификация объектов представляет собой их условное группирование по заданным признакам в соответствии с определенной целью. При различных целях одни и те же объекты могут классифицироваться по-разному. Классификация не является самоцелью, она диктуется потребностями теории и практики.
Целесообразная классификация моделей обеспечивает удобство при выборе методов моделирования и получение желаемых результатов.
К важнейшим признакам, по которым проводится классификация моделей, относятся:
закон функционирования и характерные особенности выражения свойств и отношений оригинала;
основания для преобразования свойств и отношений модели в свойства и отношения оригинала.
По первому признаку модели делятся на логические, материальные и семантические, или вербальные.
Логические модели функционируют по законам логики в сознании человека или в компьютере, работающем под управлением написанной человеком программы. Материальные модели функционируют в соответствии с объективными законами природы.
Семантические, или вербальные, модели являются словесными описаниями объектов моделирования. Они применяются в ряде случаев, в частности на начальных этапах моделирования деятельности организации, при опросе – экспертами персонала с целью получения необходимой информации.
Основная проблема, возникающая при построении вербальных моделей бизнес-процессов организации, заключается в установлении эффективного взаимодействия между экспертами предметной области (сотрудниками организации) и специалистами в области моделирования.
Образные, или иконические, модели выражают свойства оригинала с помощью наглядных образов, имеющих прообразы среди объектов материального мира. Набор моделей ARIS включает несколько моделей, которые по своей сути являются образными, или иконическими. Это, например, модели «Производственный процесс», «Офисный процесс» и другие.
Знаковые (символические) модели выражают свойства моделируемой системы с помощью условных знаков или символов. Образно-знаковые модели совмещают в себе признаки образных и знаковых моделей. Подавляющее большинство моделей ARIS являются образно-знаковыми.
Функциональные, геометрические и функционально-геометрические модели отражают соответственно только функциональные, только пространственные и одновременно функциональные и пространственные свойства оригинала. В методологии ARIS эти модели не используются.
По второму признаку модели делятся на условные, аналогичные и математические. Условные модели выражают свойства и отношения оригинала на основании принятого условия или соглашения. У таких моделей сходство с оригиналом может совершенно отсутствовать. Практически все модели ARIS являются условными. Следует отметить, что образные и образно-знаковые модели относятся тоже к условным.
Аналогичные модели обладают сходством с оригиналом, достаточным для перехода к оригиналу на основании умозаключения по аналогии. Такие модели также не используются в ARIS.
Математические модели обеспечивают переход к оригиналу, фиксацию и исследование его свойств и отношений с помощью математических методов. Математические модели обладают важными достоинствами — четкостью, возможностью строгой дедукции, проверяемостью. Однако в целом ряде случаев при построении математических моделей, например для описания процесса производства стали, могут возникнуть практически непреодолимые трудности. Тем не менее математические модели иногда используются в ARIS, в частности, при расчетах в ходе функционально-стоимостного анализа. Можно провести квалификацию моделей в зависимости от их назначения. С точки зрения учета временного фактора выделяют статичные, имитационные и динамические модели.
Статичные модели описывают содержательную сторону системы, не изменяющуюся во времени. Они могут быть функционально-информационными, т.е. описывать структуру информации, на основе которой функционирует система, и структурными, т.е. описывать структуру системы.
При моделировании организаций проводится главным образом условное моделирование, т.е. предполагается замещение оригинала условной моделью, представляющей его только в рамках договоренности о смысле, приписанном этой модели. В связи с этим вопрос о нотациях, используемых в знаковых и образно-знаковых моделях, приобретает большое значение.
К нотации модели предъявляются следующие основные требования:
простота — простое при прочих равных условиях предпочтительнее сложного;
наглядность — хотя бы отдаленное сходство с оригиналом облегчает использование модели;
индивидуальность — достаточное отличие от других обозначений;
однозначность — недопустимость обозначения одним символом различных объектов;
Рисунок «Обозначение объектов в диаграмме структуры знаний ARIS»
единообразие — применение аналогичных правил при моделировании одно родных объектов;
определенность — четкие правила использования модели;
учет устоявшихся традиций.
Нотация графической модели предполагает наличие:
строго определенного набора взаимоувязанных графических изображений — элементов графического языка;
различных типов связи между ними;
фрагментов текста (естественного языка);
встроенных объектов;
глоссария.
Графический язык обеспечивает структуру и точную семантику естественному языку модели, организует естественный язык определенным и однозначным способом, что позволяет описывать весьма сложные модели. Синтаксис графического языка содержит, как правило, разноцветные геометрические фигуры (прямоугольники, квадраты, параллелограммы, эллипсы, треугольники) и условные изображения разного рода. Встроенные объекты — объекты других программных систем (Word, Excel, математические пакеты) — улучшают информационную насыщенность модели, делают ее более полной. Глоссарий помогает пользователям разобраться с терминологией модели, облегчая тем самым ее понимание и использование.
Этапы структурного анализа
Проведение структурного анализа организации предполагает нескольких этапов:
построение иерархии целей оптимизации деятельности организации;
выбор методологии;
выбор моделей;
анализ деятельности организации;
разработка моделей в соответствии с иерархией целей;
оптимизация моделей;
реорганизация деятельности.
На первом этапе выявляются и описываются цели, которые планируется достичь в ходе структурного анализа деятельности организации. Их, как правило, бывает несколько. В связи с этим цели необходимо ранжировать, выстроить их иерархию.
Когда цели реорганизации деятельности известны, появляется возможность для выбора методов проведения структурного анализа. Жестких алгоритмов выбора их не существует. Методология структурного анализа предполагает использование одной или нескольких моделей.
Определив цели анализа и выбрав инструменты для его проведения, необходимо детально изучить, как функционирует организация. Целью изучения является сбор данных для построения моделей, отображающих деятельность организации.
Основными принципами проведения изучения деятельности организации являются:
целенаправленность;
комплексность;
планомерность;
организационно-методическая целостность.
Эти же принципы должны быть реализованы и в методике, включающей описания программы действий, изучаемых объектов, степени детализации изучения, методов сбора данных и правил их обработки. Такая методика обеспечивает стандартизацию изучения предметной области и формализованное представление данных. Сбор информации производится в рамках всех основных структур организации.
Большая часть собираемой информации не является очевидной, сформулированной и однозначной. В связи с этим перед началом моделирования необходимо выявить основные структурообразующие элементы системы управления анализируемой организации и зафиксировать их. К таким элементам относятся:
организационная структура компании;
структура территории;
состав и структура основных бизнес-процессов компании;
классификация и структура основных рабочих документов;
классификация и структура информационных систем.
Организационная структура является наиболее очевидной составляющей любой компании. Однако и здесь могут быть проблемы. Так, проблема возникает при наличии прямой (дисциплинарной) подчиненности одного организационного элемента другому и одновременно дополнительной (функциональной) подчиненности. Наиболее ярким примером может служить бухгалтерия крупной компании, имеющей несколько направлений деятельности. Бухгалтеры, обслуживающие некоторое направление деятельности такой компании, входят в состав единой бухгалтерии и подчиняются (дисциплинарно) главному бухгалтеру (иногда финансовому директору). Однако функциональная подчиненность (в рамках основных функциональных обязанностей бухгалтеров, обслуживающих направление) подразумевает их подчинение руководителю функционального блока (направления).
Характерной проблемой является наличие неофициальных отношений подчинения.
Формально зафиксированное подчинение одних сотрудников другим на практике зачастую отсутствует. В результате появляется новая организационная структура, в целом соответствующая формальной, но в определенных частях отличающаяся от нее.
Третья серьезная проблема связана с отделением юридической структуры от управленческой. Эта особенность характерна в первую очередь для компаний-холдингов, имеющих в своем составе несколько юридических лиц. Управленческая структура (структура подчинения с точки зрения оперативного управления) почти всегда значительно отличается от юридической. Это объясняется тем, что существуют разные принципы и критерии формирования управленческой и юридической структур.
Юридическая структура формируется с точки зрения интересов стратегического управления, а также с точки зрения требований бизнеса, которым занимается организация.
Управленческая же структура выстраивается и оптимизируется с точки зрения более эффективного оперативного управления. В результате в одном подразделении (в рамках управленческой структуры) могут работать специалисты, состоящие в штате нескольких юридических лиц.
Структура территории может оказаться важной для распределенных организаций, где территориальное расположение отдельных подразделений (филиалов) в значительной мере влияет на особенности устройства системы управления, в частности, бизнес-процессами.
Несмотря на то, что во многих организациях нет четко сформулированных регламентных документов, описывающих правила ведения бизнеса и выполнения связанных с этим процедур, структуру основных и вспомогательных процессов верхнего уровня можно определить, и это должно быть сделано в самом начале работ по моделированию. Данная структура в той или иной степени идентична для всех компаний, занятых аналогичной деятельностью. В связи с этим можно использовать существующие обобщенные (референтные) модели процессов, создаваемые для различных отраслевых областей.
Выделение структур процессов обеспечит в дальнейшем более эффективное планирование и управление в ходе моделирования, а также облегчит получение структурированной информации о деятельности моделируемой организации.
Одной из важных задач повышения эффективности деятельности организации является оптимизация документооборота и создание системы управленческого учета. Для решения этой задачи необходимо иметь структурированную систему классификации всего информационного пространства организации, включающего как документы, так и отдельные экономические, финансовые, производственные и другие показатели.
Формирование данной структуры — один из наиболее приоритетных этапов моделирования.
Задачи, связанные с созданием и внедрением информационных технологий, требуют детального анализа существующих информационных систем — их структуры и участия в бизнес-процессах организации. В связи с этим, необходимо заранее, до детального моделирования процессов, сформировать структурированный перечень всех интересующих информационных систем, а также оценить их внутреннюю структуру (прежде всего — набор основных модулей и экранных форм).
Таким образом, для того, чтобы построить адекватную и востребованную модель организации необходимо уже на первоначальных этапах моделирования задуматься о выделении и фиксации всех основополагающих структур. Грамотное их формирование обеспечивает качественный «задел» на будущее. Это позволит продуманно и прогнозируемо разработать все новые детальные модели, имеющие определенное место в общей модели структуры организации и соответствующие целям анализа отдельных элементов и организации в целом.
От качества и количества информации, полученной при изучении организации, зависит, насколько адекватной будет построенная модель.
Разработка моделей деятельности организации включает несколько этапов:
выделение множества объектов, оказывающих существенное влияние на деятельность структурного элемента;
спецификацию входных и выходных потоков (информации, материалов, продуктов, услуг, финансов и т.д.);
выявление основных процессов, определяющих деятельность структурного элемента и обеспечивающих реализацию его целевых функций;
спецификацию потоков между основными процессами деятельности, уточнение связей между процессами и внешними объектами;
оценку объемов, интенсивности и других необходимых характеристик потоков;
разработку функциональной модели деятельности структурного элемента;
объединение моделей структурных элементов в единую модель деятельности организации.
Построенная модель должна быть оптимизирована по критериям, представляющим интерес для пользователя. После этого проводится анализ моделей, результаты которого используются для реорганизации деятельности.
Системный анализ деятельности организации. Виды организаций в ARIS
Понятие организации
Международный стандарт ИСО 9000:2000 определяет организацию как группу работников и необходимых средств с распределением ответственности, полномочий и взаимоотношений.
Организация может быть корпоративной, государственной или частной. Можно дать и другое определение: организация — это систематизированное, сознательное объединение действий людей, преследующих достижение конкретных целей.
Понятие «организация» раскрывает приведенная на рисунке модель технических терминов ARIS (Architecture of Integrated Information Systems — архитектура интегрированных информационных систем).
Рисунок «Виды организаций, представленные с помощью модели технических терминов ARIS»
В дальнейшем при изложении материала будет использоваться термин «организация».
Каждая организация имеет несколько категорий заинтересованных сторон, имеющих свои нужды и ожидания.
С точки зрения управления главными заинтересованными сторонами являются:
заказчики и конечные пользователи;
сотрудники организации;
собственники и/или инвесторы;
поставщики и партнеры;
общество, интересы которого представляют органы местного управления, и население, оказывающее влияние на организацию.
Каждая заинтересованная сторона надеется на свою собственную выгоду от той добавленной стоимости, которая появляется в результате деятельности организации.
Любая организация — многофункциональна. К ее основным функциям относятся:
маркетинг и анализ рынка;
стратегическое планирование деятельности предприятия;
стратегическое и оперативное управление;
планирование и разработка бизнес-процессов;
проектирование и разработка продукции;
производство продукции;
поставка продукции;
закупки материалов и комплектующих;
техническое обслуживание и ремонт оборудования и прочие функции;
оформление финансовых документов;
подготовка кадров и управление персоналом.
Для выполнения этих функций организация должна быть соответствующим образом структурирована.
Функционально-ориентированная (иерархическая) организация
Функционально-ориентированные организации остаются неизменными и характеризуются вертикальной топологией структуры и иерархией отношений между подразделениями (см. рисунок).
В организации, имеющей функционально-ориентированную структуру, одно функциональное подразделение (закупки, производство, финансы и бухгалтерия) несет ответственность за все продукты и территории. Преимущество узкой специализации служащих «компенсируется» непомерными накладными расходами на коммуникации и координацию функциональных подразделений.
Функционально-ориентированные организации обладают рядом недостатков, основными из которых являются:
невозможность быстрой реакции на изменения;
оторванность работающих от конечного результата;
главным потребителем результатов труда работника является вышестоящий начальник;
отсутствие ориентации на клиента;
чрезвычайно усложнены взаимодействие и обмен информацией между подразделениями организации.
Альтернативой строго функциональной структуре является процессно-ориентированная структура.
Процессно-ориентированная организация
Понятие «процесс» — ключевое в современной теории управления бизнесом.
Международный стандарт ИСО 9000:2000 определяет процесс как совокупность взаимосвязанных и взаимодействующих видов деятельности, преобразующих входы и выходы (см. рисунок). Процесс включает одну или более связанных между собой процедур или функций, которые совместно реализуют некую задачу бизнеса — обычно в рамках организационной структуры. Он может выполняться в пределах одной организационной единицы, охватывать несколько единиц или даже несколько различных организаций, например, в системе «покупатель-поставщик».
Процесс обычно связан с операционными отношениями, например, процесс разработки нового изделия или процесс продаж. Введем некоторые термины, взаимосвязь которых представлена на рисунке (ниже). Различают основные и вспомогательные процессы.
Основные процессы — это те процессы, которые добавляют новое качество продукции.
Вспомогательные процессы формируют инфраструктуру организации.
Владелец процесса — лицо (или группа лиц), отвечающее за процесс и имеющее полномочия изменять его с целью усовершенствования.
Границы процесса — граница входа и граница выхода. Граница входа предшествует первой операции процесса, граница выхода следует за его последней операцией.
Интерфейс процесса — механизм (организационный, информационный, технический), посредством которого процесс взаимодействует с предшествующим и последующим процессами.
В соответствии с новым взглядом на организацию работа должна быть организована вокруг процессов. По словам Хаммера и Чампи, «не товары, а процессы их создания приносят компаниям долгосрочный успех». Целью организации должно быть совершенствование бизнес-процессов для преодоления их фрагментарности и для достижения существенных улучшений в ключевых показателях результативности — затраты, качество, уровень обслуживания и оперативность.
Несмотря на явные преимущества процессно-ориентированного устройства компании, — добиться создания такой структуры в чистом виде не представляется возможным.
Первым шагом проекта по оптимизации деятельности должно стать выделение основных продуктов компании и выстраивание процессов в соответствии с продуктовыми линиями. Это позволяет получить продуктовые «срезы» бизнес-процессов, протекающих в организации.
Однако всегда существует несколько функциональных подразделений, которые принимают участие в обслуживании всех продуктовых линий, например, бухгалтерия, транспортный цех и т.д. Перестроить данные направления, разбив их на продуктовые срезы компании, крайне сложно, так как это повлечет за собой массу дополнительных проблем и расходов.
Таким образом, задача формализации и оптимизации деятельности сводится к выделению бизнес-процессов в соответствии с продуктовыми линиями и функциональными подразделениями, и увязке их в сквозные процессы компании, нацеленные в первую очередь на создание продуктов и предоставление услуг клиентам.
Рисунок «Понятие «процесс», представленное с помощью модели технических терминов ARIS»
Понятие системы
Любая организация является сложной социально-технической системой. Термин «система», употребляемый в современной практике, имеет множество значений и смысловых нюансов. Это приводит к необходимости выделить те значения, которые имеют непосредственное отношение к системному анализу деятельности организации. Далее приведены три определения, которые представляются наиболее удачными.
Первое из них дано в Международном стандарте ИСО 9000:2000 «Системы менеджмента качества. Основные положения и словарь».
Система — это совокупность взаимосвязанных и взаимодействующих элементов. Следует отметить, что в современном менеджменте качества уделяется большое внимание системному подходу к деятельности организации.
Российский энциклопедический словарь трактует понятие «система» следующим образом: система (от греческого Systema — целое, составленное из частей) — множество элементов, находящихся в отношениях и связях друг с другом, образующих определенную целостность, единство.
И, наконец, третье определение: система — совокупность связанных между собой и с внешней средой элементов и частей, функционирование которых направлено на получение конкретного результата.
Как всякое фундаментальное понятие, термин «система» лучше всего конкретизируется при рассмотрении его основных свойств.
Для системы характерны следующие основные свойства:
целенаправленность — определяет поведение системы;
сложность — зависит от множества входящих в систему компонентов, их структурного взаимодействия, а также от сложности внутренних и внешних связей и их динамичности;
делимость — система состоит из ряда подсистем или элементов, выделенных по определенному признаку, отвечающему конкретным целям и задачам;
целостность — функционирование множества элементов системы подчинено единой цели. При этом система проявляет так называемые интегративные свойства, т.е. свойства, присущие системе в целом, но отсутствующие в отдельно взятых ее элементах;
многообразие элементов и различие их природы — это связано с их функциональной специфичностью и автономностью;
структурированность — определяется наличием установленных связей и отношений между элементами внутри системы, распределением элементов системы по уровням иерархии.
Исходной характеристикой системы является ее противопоставление окружению, или среде. Среда — это все то, что не входит в систему. Среда представляет собой совокупность всех систем, кроме исследуемой, выделенной, интересующей нас в настоящий момент части реального окружающего мира. Поэтому можно сказать, что система — это конечное множество объектов, каким-то образом выделенное из среды посредством границы системы.
Понятие «границы» в целом ряде случаев весьма условно, и при моделировании необходимо четко определить, где кончается система, а где начинается среда.
Между средой и бизнес-системой, которой является организация (см. рисунок), существует множество взаимных связей, с помощью которых реализуется процесс взаимодействия среды и системы.
По входной и выходной связям между системой и средой путем взаимной передачи происходит обмен материальными, финансовыми, энергетическими, информационными и иными элементами.
Элементы, передаваемые системой во внешнюю среду, будем называть конечными продуктами деятельности системы, а передаваемые из среды в систему — ресурсами.
Рисунок «Связи системы-организации с внешней средой»
Цель системы — достижение и сохранение желаемого состояния или желаемого результата поведения системы. Цель организации — стремление к максимальному результату, выражаемому в максимизации ценности капитала, при постоянном сохранении определенного уровня ликвидности и достижении целей производства и сбыта с учетом социальных задач. Вспомогательной стоимостной целью является стремление к оптимальной расчетной прибыли за период. Задача системы — описание способа (технологии) достижения цели, содержащее указание на цель с желаемыми конкретными числовыми (в том числе временными) характеристиками.
Система целей — совокупность взаимоувязанных целей. В соответствии с определением понятия «система» для одного и того же объекта может быть рассмотрено несколько систем целей, т.е. использовано несколько оснований для их классификации, например:
стратегические и тактические цели;
долгосрочные (выполнение через несколько лет) и краткосрочные (выполнение через год и ранее) цели;
производственные, финансовые, социальные цели, цели повышения качества продукции и т.п.
Древовидная система целей (см. рисунок) включает как минимум глобальную цель — существование организации и две главные цели — цель функционирования (выпускать продукцию) и цель развития (развиваться).
Рисунок «Цели организации, представленные в виде диаграммы целей ARIS»
Таким образом, система представляет собой упорядоченное подмножество объектов, интенсивность взаимосвязей которых превышает интенсивность отношений с объектами, не входящими в данное подмножество, т.е. с внешней средой. Объект (элемент, компонент) — часть системы, выделенная по какому-либо признаку, сформулированному заинтересованным лицом. При этом объекты системы и отношения между ними выделяются в зависимости от точки зрения заинтересованного лица или группы лиц, например, одно и то же предприятие может рассматриваться как производственная, организационно-экономическая или социальная система. Выбор точки зрения — категория системного анализа, характеризующаяся выделением определенных аспектов рассмотрения проблемы и применением особой терминологии, соответствующей этим аспектам.
Системный подход
Системный подход — это методология специального научного познания и социальной практики, а также объяснительный принцип, в основе которого лежит исследование объектов как систем.
Методологическая специфика системного подхода определяется тем, что он ориентирует исследование на:
раскрытие целостности объекта и обеспечивающих его механизмов;
выявление многообразных типов связей сложного объекта;
сведение этих связей в единую теоретическую картину.
Системный подход реализует представление сложного объекта в виде иерархической системы взаимосвязанных моделей, позволяющих фиксировать целостные свойства объекта, его структуру и динамику. Методология ARIS основана на применении системного подхода в полной мере. Системный анализ — совокупность методологических средств, используемых для подготовки и обоснования решений по сложным проблемам социального, технического и экономического характера. Он основывается на системном подходе, а также на ряде математических дисциплин и современных методов управления. Основной процедурой системного анализа является построение обобщенной модели, адекватно отображающей интересующие исследователя свойства реальной системы и ее взаимосвязи.
Главной задачей системного анализа является поиск путей по превращению сложного в простое, по разложению труднопонимаемой задачи на ряд задач, имеющих решение.
Принципы системного анализа:
Оптимальность. В результате анализа необходимо найти оптимальное решение задачи.
Эмерджентность. Этот принцип предполагает следующее важное свойство системы: чем больше система и чем больше различие между частью и целым, тем выше вероятность того, что свойства целого могут сильно отличаться от свойств его частей.
Принцип эмерджментности позволяет выявить несовпадение локальных оптимумов целей системы с глобальным оптимумом системы. Этот фактор необходимо учитывать при проведении системного анализа деятельности организации, поскольку он играет важную роль.
Системность. Исследование объекта, с одной стороны, как единого целого, а с другой, как части более крупной системы, с которой объект находится в определенных отношениях.
Иерархичность. Определение в системе структурных отношений, характеризуемых упорядоченностью, организованностью взаимодействий между отдельными ее уровнями по вертикали. Большинство организаций представляют собой сложные системы, и необходимость иерархического построения этих систем обусловлена тем, что управление в них связано с переработкой и использованием больших объемов информации.
Интеграция. Изучение интеграционных свойств и закономерностей системы.
Системный анализ — наиболее эффективный метод, применяемый при построении модели организации. Однако при проведении его могут возникать проблемы, обусловленные сложностью социально-технических систем, так и проблемы политического характера, если заинтересованные группы конфликтуют. При сочетании этих проблем системный анализ становится трудным и кропотливым делом, при котором аналитик должен играть роль посредника между заказчиком и исполнителем.
Руководители предприятий обычно интуитивно понимают свои проблемы, но не могут объяснить их, и, кроме того, они часто имеют весьма туманное представление о том, какую пользу могут принести им информационные технологии. Разработчики же с энтузиазмом говорят о существующих возможностях в области построения систем обработки данных, но они, как правило, не имеют информации о том, что именно является наилучшим для той или иной организации.
Основополагающая концепция состоит в построении при помощи графических методов системного анализа совокупности моделей различных аспектов деятельности организации, которые дают возможность управленцам и аналитикам получить ясную общую картину бизнес-процессов.
Системный подход применяется для решения различного рода сложных задач, в число которых входят:
совершенствование системы управления организации и анализ ее деятельности;
подготовка к внедрению системы управления предприятием;
внедрение систем менеджмента качества и их сертификация;
оптимизация, инжиниринг и реинжиниринг бизнес-процессов;
внедрение информационных систем на предприятии;
документирование корпоративных знаний, в том числе в виде моделей прототипов.
Актуальность данных и аналитических исследований. Что такое аналитика? Виды анализа
Рост объема информации характерен почти для каждой сферы общественной деятельности. Если вы занимаетесь спортом, то наверняка знаете о бейсбольной статистике Moneyball и революции в профессиональном бейсболе, которую позволил совершить анализ данных об эффективности действий отдельных игроков. Сейчас такая статистика внедрена практически во всех популярных видах спорта. Если вы увлекаетесь сетевыми компьютерными играми, то наверняка знаете, что разнообразные сведения о вашем игровом поведении накапливают и анализируют компании Zynga и Electronic Arts. Любите кино? Возможно, слышали о методике, применяемой компанией Netflix для прогнозирования предпочтений в области кино. Может быть, вы не знаете, что некоторые голливудские киностудии (например, Relativity Media) используют похожие методики, принимая решение о том, какие кинопроекты финансировать.
Статья написана на основе лекций «Моделирование и анализ бизнес-процессов» профессора Томского государственного университета систем управления и радиоэлектроники, Силич Марии Петровны.
Классификация моделей
Понятие модели
Модель представляет искусственный, созданный человеком объект любой природы (умозрительный или материально реализованный), который замещает или воспроизводит исследуемый объект.
Процесс построения, изучения и применения моделей называется моделированием.
Модель — упрощенный, приближенный образ, который отражает наиболее существенные (с точки зрения цели моделирования) свойства оригинала.
Соответствие модели оригиналу называется адекватностью модели.
Адекватность включает требования полноты и точности (правильности). Требования должны выполняться в той мере, которая достаточна для достижения цели.
Для одного и того же объекта может быть построено множество различных моделей, отвечающих различным целям.
Модель внешнего вида часов Структурная схема часов
Виды подобия: прямое (макет, фотография), косвенное (подобие по аналогии), условное (на основе соглашений).
Процесс моделирования имеет свойство динамичности: модели развиваются, уточняются, переходят одна в другую.
Классификация моделей
Познавательные (объяснительные) модели отражают уже существующие объекты.
Нормативные (прагматические) модели отражают объекты, которые должны быть осуществлены.
Градации нормативных моделей: от референтной (для целого класса объектов) до модели конкретного объекта.
Статические модели не учитывают временной фактор. Динамические модели отражают изменения объекта, происходящие с течением времени. Динамическая модель сама может быть статична или находиться в динамике (имитационная модель).
Материальные модели построены из реальных объектов. Абстрактные модели — это идеальные конструкции, выполненные средствами мышления, сознания.
Декларативные модели отражают свойства, структуры, состояния объектов. Процедурные модели отражают процедурное, операционное знание.
Детерминированные модели отражают процессы и явления, не подверженные случайностям. Стохастические – отражают случайные процессы, описываемые вероятностными характеристиками и статистическими закономерностями.
Формализованные модели могут не иметь смысловой интерпретации. В содержательных моделях сохраняется семантика моделируемого объекта.
Языки описания моделей
Языки описания моделей: аналитические, численные, логические, теоретико-множественные, лингвистические, графические.
Графические модели (схемы, диаграммы, графики, чертежи) – наглядны. Нотация — система условных обозначений (знаков) и правил их использования, принятая в конкретной методологии.
Требования к нотации:
простота— простой знак предпочтительнее сложного;
наглядность— хотя бы отдаленное сходство с оригиналом;
индивидуальность— достаточное отличие от других обозначений;
однозначность— нельзя обозначать одним символом различные объекты;
определенность— четкие правила использования модели;
учет устоявшихся традиций.
Содержание модели бизнеса
В модели бизнеса отражают:
функции, которые бизнес-система должна выполнять — что она делает, для кого, с какой целью;
процессы, последовательность отдельных шагов процессов (работ, операций);
организационные структуры, обеспечивающие выполнение процессов;
материальные и информационные потоки, возникающие в ходе выполнения процессов;
данные, необходимые при выполнении процессов, и отношения между этими данными.
Методы моделирования бизнеса
Структурные методы
Основаны на последовательной декомпозиции системы на все более мелкие подсистемы.
Принципы структурного подхода:
«разделяй и властвуй» — разбиение сложных проблем на множество меньших задач, легких для понимания и решения;
иерархическое упорядочивание – организация составных частей проблемы в иерархические древовидные структуры.
Две группы методов: моделирующие функциональную структуру и структуру данных
Наибольшее распространение получили методологии:
IDEF0 – функциональные модели, основанные на методе SADT;
IDEF1X – диаграммы данных «сущность-связь» (ERD);
IDEF3 — диаграммы потоков работ (Work Flow Diagrams);
DFD — диаграммы потоков данных (Data Flow Diagrams).
Методы объектно-ориентированного моделирования
Предназначены для создания моделей систем с целью их последующей реализации в виде объектно-ориентированных программ
Наиболее известные методы:
Booch’93 Г. Буча,
OMT Дж. Румбаха
OOSE А. Джекобсона
UML (Unified Modeling Language) – на основе Booch’93, OMT, OOSE
Главным структурообразующим элементом является объект. В программировании объект — это структура, объединяющая данные и процедуры. В модели бизнеса объекты – это участники бизнес-процесса (активные объекты) и пассивные объекты (материалы, документы), над которыми выполняют действия активные объекты.
Методы имитационного моделирования
Позволяют имитировать на компьютере (с помощью специальных программ) процессы функционирования реальной системы (в режиме сжатого времени или пошаговом режиме).
Наиболее распространенные методы:
сети Петри и раскрашенные сети Петри (CPN, Colored Petri Nets);
GPSS (General Purpose Simulating System) – унифицированный язык имитационного моделирования;
SIMAN (SIMulation ANalysis) – язык визуального моделирования.
Интегрированные методы
Интегрированные методы моделирования объединяют различные виды моделей – структурного анализа, объектно-ориентированные, имитационные и др.
ARIS (Architecture of Integrated Information System) позволяет отражать в единой интегрированной модели: оргструктуры, функции, данные, процессы. Использует множество типов моделей.
G2 — методология создания динамических интеллектуальных систем позволяет моделировать процессы с использованием знаний эксперта.
BRM (Business Rules Management) – методология управления бизнес-правилами.
Структурные методологии
Методология IDEF0
Методология IDEF0 базируется на методе SADT (Structured Analysis and Design Technique) Росса, предназначенном для структурированного представления функций системы и анализа системных требований. IDEF0-модель состоит из диаграмм и фрагментов текста. На диаграммах все функции системы и их взаимодействия представлены как блоки (функции) и дуги (отношения).
Основные элементы модели:
Функциональный блок (Activity) – преобразование (активность);
Выходы (Output) – результат преобразования;
Входы (Input) — объекты, которые преобразуются в Выходы;
Управление (Control) — информация, как происходит преобразование;
Механизм (Mechanism) – объекты, осуществляющие преобразование.
Функциональный блок может быть декомпозирован — представлен в виде совокупности других взаимосвязанных блоков, которые детально описывают исходный блок.
Таким образом, IDEF0-модель состоит из набора иерархически связанных диаграмм
На диаграмме блоки соединяются дугами: выходные дуги одних блоков могут являться входами (управлением, механизмом) других.
Дуги с одним свободным концом имеют источник или получатель вне диаграммы. Для обозначения внешних дуг используются буквы:
I (Input),
C (Control),
O (Output) и
M (Mechanism).
Типы связей между блоками: Выход-вход Выход-управление Выход-механизм Обратная связь по управлению Обратная связь по входу
Методология IDEF3
IDEF3-модели используются для документирования технологических (информационных) процессов, где важна последовательность выполнения процесса
Выделяют четыре элемента IDEF3-модели: Единица работы — отображают действия, процессы, события, этапы выполнения работ. Единица работы может иметь только один вход и один выход
Ссылки (Referents):
необходимые элементы для выполнения процесса (сырье, материалы);
результат процесса (изделие);
активаторы процесса (клиент, поставщик).
Связи (Links), которые бывают двух типов:
передают действия от одной единицы работ к другой
соединяют ссылку с единицей работ (активируют единицу работ)
Перекрестки (Junctions) – элементы модели, за счет которых описывается логика и последовательность выполнения этапов процесса.
Бывают двух видов:
перекрестки слияния – Fan-in
перекрестки ветвления – Fan-out
Типы перекрестков
Асинхронное И (Asynchronous AND)
выходной процесс запустится, если завершились все входные процессы
после завершения входного процесса запустятся все выходные процессы
Синхронное И (Synchronous AND)
выходной процесс запустится, если завершились одновременно все входные процессы
после завершения входного процесса запустятся все выходные процессы, причем запустятся одновременно
Асинхронное ИЛИ (Asynchronous OR)
выходной процесс запустится, если завершится один или несколько входных процессов
после завершения входного процесса запустятся один или несколько выходных процессов
Синхронное ИЛИ (Synchronous OR)
выходной процесс запустится, если завершились один или несколько входных процессов, причем завершились одновременно
после завершения входного процесса запустится один или несколько выходных процессов, причем запустятся одновременно
Исключающее ИЛИ (XOR, Exclusive OR)
выходной процесс запустится, если завершился только один входной процесс
после завершения входного процесса запустится только один выходной процесс
Пример IDEF3
Правила создания перекрестков
Каждому перекрестку слияния должен предшествовать перекресток ветвления.
Перекресток слияния «И» не может следовать за перекрестком ветвления типа синхронного, асинхронного или исключающего «ИЛИ».
Перекресток слияния типа исключающего «ИЛИ» не может следовать за перекрестком ветвления типа «И».
Перекресток, имеющий одну стрелку на одной стороне, должен иметь более одной стрелки на другой.
Перекресток не может быть одновременно перекрестком слияния и ветвления. В ситуации, когда необходимо одновременно осуществить слияние и разветвление потоков работ, вводится каскад перекрестков.
Правило относительно единиц работ
В блок может входить и из блока может выходить только одна связь последовательности. Для отображения множества входов и выходов используются перекрестки.
Разрешается множественная декомпозиция работ:
для одной и той же работы может быть создано несколько диаграмм декомпозиции (для описания разных вариантов реализации работы).
Номер работы А13.1.2 означает:
родительская работа имеет код А13,
номер декомпозиции – 1
номер работы на текущей диаграмме – 2.
Методология DFD
Диаграммы потоков данных DFD позволяют эффективно и наглядно описать процессы документооборота и обработки информации.
Используются две нотации: Йордана и Гейна-Сарсона
Типы структурных элементов (в нотации Гейна-Сарсона): 1. Процессы (функции, операции, действия), которые обрабатывают и изменяют информацию. Процессы показывают, каким образом входные потоки данных преобразуются в выходные 2. Потоки данных, которые обозначают взаимодействие процессов с внешним миром и между собой. Поток данных соединяет выход процесса (объекта) с входом другого процесса (объекта). 3. Хранилища данных — представляют собой собственно данные, к которым осуществляется доступ. Эти данные могут быть созданы или изменены процессами. 4. Внешние сущности — определяют внешние элементы, которые участвуют в процессе обмена информацией с системой. Внешние сущности изображают входы в систему (источники информации) и/или выходы из системы (приемники информации). Примеры: заказчик, персонал, поставщик, клиент, склад, банк
Пример:
Объектно-ориентированный язык UML
Язык UML был разработан для создания моделей информационных систем (ИС) с целью их последующей реализации в виде объектно-ориентированных программ.
Все представления о модели сложной системы фиксируются в виде диаграмм -специальных графических конструкций (схем, графов).
Имеется 8 основных типов диаграмм UML, отражающих различные аспекты: процессы, выполняемые системой (предоставляемые пользователю сервисы), последовательность выполняемых системой алгоритмических операций,
структуру программных объектов, их взаимодействие (обмен сообщениями) и т.д.
В настоящее время язык UML применяется не только для создания ИС, но и для анализа и перепроектирования бизнес-процессов:
вместо моделей процессов ИС строятся модели бизнес-процессов,
вместо программных объектов в моделях отражаются объекты бизнес-процессов (исполнители, продукция, услуги и т.д.),
вместо окружения ИС (пользователей ИС) моделируется окружение бизнеса (поставщики, партнеры, клиенты).
Прецедентная модель бизнеса
Отражает основные бизнес-процессы, их взаимодействие с окружением.
Начинается с построения внешней диаграммы (вариантов использования — Use Case Diagram), показывающей, как бизнес виден извне
Актор (действующее лицо, business actor) — субъект окружения бизнеса. Примеры акторов: Клиент, Покупатель, Поставщик, Партнер, Акционер, Заказчик.
Прецедент (вариант использования, business use case) — относительно законченная последовательность действий в рамках некоторого бизнес-процесса, приносящая ощутимый результат конкретному актору .
Примеры прецедентов: Производство продукта Продажа продукта, Сервисное обслуживание, Разработка продукта, Маркетинг и сбыт.
Экземпляр (реализация) прецедента – конкретный вариант хода событий класс прецедентов — обобщенный прецедент.
Для акторов тоже различают понятия класса и экземпляра.
Акторы разных классов могут иметь общие характеристики или общие обязательства.
Можно ввести обобщенный класс акторов. Между обобщенным типом актора и более конкретным устанавливается отношение обобщения
Между прецедентами и акторами устанавливаются отношения коммуникации (отношения ассоциации со стереотипом communicate).
Они моделируют взаимосвязи прецедентов с окружением (информационные и материальные потоки)
Между прецедентами, как правило, устанавливаются только отношения зависимости а также отношения, структурирующие прецеденты – отношения обобщения, включения (зависимости со стереотипом include), расширения (зависимости со стереотипом extend).
Для каждого из элементов модели составляется спецификация.
В спецификации актора: наименование, стереотип (business actor), описание, список атрибутов, список обязательств и др.
В спецификации прецедента: наименование, стереотип (business use case), краткое описание, перечень связанных с прецедентом поддиаграмм и документов
Поток событий прецедента
Поток событий — описание прецедентов последовательностью шагов
Поток событий прецедента «Продажа продукта»:
Продавец получает заявку клиента
Если в заявке указан готовый продукт, то Продавец проверяет наличие продукта на складе. Если продукта нет в наличии, прецедент заканчивается. Если продукт есть на складе, то прецедент продолжается с шага 6.
Если в заявке указывается заказной продукт, то Продавец формирует заказ и передает его
Изготовителю продукта.
Изготовитель изготавливает продукт в соответствии с требованиями клиента и сообщает о готовности Продавцу.
Изготовитель отправляет продукт на Склад.
Продавец сообщает Клиенту о готовности продукта и принимает от Клиента оплату.
Продавец сообщает Отправителю количество продукта и адрес клиента и заказывает транспорт.
Отправитель получает продукт со склада и доставляет его клиенту.
Диаграмма деятельности (Activity Diagram)
Элементы диаграммы деятельности
Дорожки:
Если в выполнении прецедента участвуют несколько объектов, то действия, выполняемые каждым объектом, размещаются на соответствующей дорожке
Структурирование прецедентов
Чтобы упростить описание прецедента, необходимо его структурировать. Рассмотрим два способа структурирования. 1. Выделение фрагментов
Если из описания прецедента с альтернативными потоками событий можно выделить фрагмент, представляющий собой относительно законченную последовательность событий, то данный фрагмент рассматривается как отдельный прецедент. Между выделенным прецедентом и базовым устанавливается отношения включения (include).
Иногда используют отношение расширения (extend). Оно устанавливается между базовым прецедентом и прецедентом, содержащим некоторое дополнительное поведение, выполняемое при определенных условиях.
2. Обобщение
Если несколько прецедентов имеют похожее поведение, то следует выделить общее поведение в отдельный прецедент (родительский). Между каждым из частных прецедентов и родительским устанавливается отношение обобщения (generali-zation).
Объектная модель бизнес-процесса
Раскрывает внутреннее устройство бизнеса: какие виды ресурсов используются для реализации прецедентов и каким образом они взаимодействуют.
Классы объектов модели бизнеса: активные — исполнители процессов (стереотип business worker), например, Продавец, Изготовитель, Разработчик; пассивные — сущности (стереотип business entity), например, Продукт, Заказ, Счет.
Иногда среди активных выделяют:
интерфейсные (стереотип Boundary) – активные объекты, взаимодействующие с окружением, т.е. с акторами. Примеры – Продавец, Регистратор, Секретарь..
управляющие (стереотип Control) – активные объекты, участвующие в выполнении процессов, но не имеющие контакта с окружением. Примеры – Разработчик продукции, Изготовитель, Менеджер проекта..
Классы и объекты
Класс – некоторый тип объектов (множество похожих объектов), Экземпляр – конкретный объект (представитель класса).
Объекты имеют:
имя (через двоеточие может быть указано имя класса)
свойства — описываются с помощью атрибутов
поведение — представляется с помощью операций
У объектов одного класса состав атрибутов и операций одинаков.
Они отличаются значениями атрибутов, т.к. экземпляры классов описывают характеристики конкретного объекта.
Для отображения взаимосвязей объектов в процессе выполнения прецедента используются динамическая и статическая диаграммы взаимодействий.
Для отображения структурных и ассоциативных связей между классами используется диаграмма классов
Динамическая диаграмма взаимодействия
Прецедент «Продажа заказного продукта»:
Продавец получает заявку клиента
Продавец формирует заказ и передает его Изготовителю продукта.
Изготовитель изготавливает продукт.
Изготовитель отправляет продукт на Склад и сообщает о готовности Продавцу.
Продавец сообщает Клиенту о готовности продукта и принимает от Клиента оплату.
Продавец сообщает Отправителю адрес клиента и заказывает транспорт.
Отправитель получает продукт со склада и доставляет его клиенту.
Элементы диаграммы последовательности
В верхней части диаграммы – активные объекты (и акторы) в виде прямоугольника («человечка»), от которого вниз проведена «линия жизни».
Сообщение (message) – отрезок горизонтальной линии со стрелкой, проведенный от линии жизни объекта (актора), посылающего сообщение, до линии жизни объекта (актора), получающего сообщение.
Отношение сообщения моделирует материальный или информационный поток.
Прием сообщений инициирует выполнение некоторого действия получателем
Сообщения упорядочены по времени: первое сообщение изображается вверху диаграммы, следующее – ниже, следующее – еще ниже и т.д.
Однако диаграмма не содержит метрики времени (расстояния между сообщениями – это не интервал времени)
Статическая диаграмма взаимодействия
Диаграмма кооперации (Collaboration Diagram)
Диаграмма классов
Диаграмма классов (Class diagram) используется для отображения устойчивых связей между классами объектов
Диаграмма классов для прецедента «Продажа продукта»
Для структурирования классов используются отношения обобщения и включения
Описание объектов
Спецификация объекта состоит из описания свойств (атрибутов) и поведения (обязательств, операций).
Интегрированная методология ARIS
Методология ARIS (Architecture of Integrated Information System) разработана в 1990-х годах профессором А.-В. Шеером
Для каждого из этих представлений можно построить несколько типов моделей (в ARIS 5.0 общее количество типов диаграмм — 130)
Выделено четыре основных вида моделей (четыре представления):
организационные модели — структура организации (иерархия подразделений и должностей);
функциональные модели — иерархия функций (целей), выполняемых в организации;
информационные модели — структура информации, необходимой для реализации функций системы;
модели процессов/управления — комплексный взгляд на реализацию деловых процессов в рамках системы
Организационная схема
К организационным моделям относится Организационная схема (Organizational chat). Основные типы объектов этой модели:
Модель строится иерархически — от верхнего уровня структуры к нижнему.
Низшим уровнем является описание подразделений на уровне должностей — штатных единиц, занимаемых конкретными сотрудниками.
Дерево функций
К функциональным моделям относится Дерево функций (Function Tree).
Используется только один тип объекта — функция (работа, действие, этап в рамках процесса).
На верхнем уровне функции представляют собой бизнес-процессы. Детализация функций образует иерархическую структуру.
Самый нижний уровень представляют базовые функции (которые уже не могут быть разделены на составные элементы).
Событийная цепочка процесса
К моделям процессов/управления относится Диаграмма eEPC (extended Event driven Process Chain) Основные типы объектов:
Элементы диаграммы eEPC
Функция – некоторое (шаг процесса). С функцией могут быть связаны: исполнители, входные и выходные документы, программное обеспечение и т.д.
Событие — какое-либо завершенное состояние объекта, которое влияет на дальнейший ход процесса. С одной стороны события являются стимулом к выполнению функций, с другой – их результатом.
Логические операторы (И, ИЛИ, XOR) показывают разветвления в потоке процесса.
Примеры:
Интеграция моделей
Взаимосвязь моделей ARIS обеспечивается с помощью двух механизмов: интеграции и детализации 1. Механизм интеграции
Благодаря хранению объектов в едином репозитории (специальной базе данных).
При создании нового объекта в репозитарии появляется отдельная запись, задающая описание объекта.
Объект можно скопировать из одной модели и вставить в другую с помощью команд Copy/Paste.
Детализация моделей
2. Механизм детализации: для объектов текущей модели можно задавать ссылки на другие модели, являющиеся подробным описанием этого объекта.
Типы детализации, разрешенные к использованию, зависят от типа объекта
Механизм детализации позволяет избегать перегрузки моделей информацией, делая их более наглядными.
Инструментальные средства
Возможности инструментальных средств
визуальное моделирование, позволяющее формировать графическую модель (в виде диаграмм, блок-схем, графов) в интерактивном режиме с использованием визуальных средств;
проверка моделей – проверка соблюдения синтаксических и семантических правил построения моделей, определенных в используемой методологии моделирования;
анализ построенных моделей – возможность просчитать стоимостные и временные характеристики процессов, проверить гипотезы «что, если …», выявить логические ошибки и т.д.;
документирование – вывод представленной в моделях информации в виде текстовых описаний, содержащихся в файлах заданного формата;
интеграция различных информационных систем – возможность обмениваться информацией о моделируемых процессах между различными приложениями;
автоматическое создание компонент информационных систем – например, автоматическая кодогенерация (создание компьютерных программ), генерация баз данных на основе введенных моделей и диаграмм.
Использованная литература
1. Национальный исследовательский Томский политехнический университет. Томск. Силич М.П. 2016. 75 с. Презентация к лекции.
Отчетность – процесс организации данных в информационные сводки для отслеживания того, как функционируют разные сферы бизнеса. Анализ – преобразование данных в выводы, на основе которых будут приниматься решения и осуществляться действия с помощью людей, процессов и технологий.
Отчет показывает, что произошло: в четверг в 10:03 на сайте наблюдалось максимальное число посетителей – 63 000 человек. Он дает конкретные цифры. Анализ показывает, почему это произошло: в 10:01 о компании упомянули в ТВ шоу 60 Minutes, – и рекомендует, что компании следует делать, чтобы оставаться примерно на этом же уровне.
Отчеты ретроспективны, анализ дает рекомендации.
В следующей таблице суммированы отличия между этими понятиями. Теперь должно быть очевидно, почему анализ и управление на основе данных – настолько важный компонент ведения бизнеса. Это факторы, способные дать компании новые направления развития или вывести ее на новый уровень эффективности.
Гипотетические основные вопросы, на которые отвечает аналитика, по Дэвенпорту. Пункт D представляет собой ценную аналитику, пункты E и F обеспечивают управление на основе данных, если эта информация стимулирует конкретные действия (подробнее об этом ниже).
В нижнем ряду таблицы отражены действия, приводящие к выводам. Составление отчетов (А) и оповещение (В) – не управление на основе данных: они отмечают, что уже произошло или что необычное или нежелательное происходит сейчас, но при этом не дают объяснений, почему это произошло или происходит, и не дают рекомендаций по улучшению ситуации. Предвестником управления на основе данных служит дальнейшее изучение причинно следственных связей с помощью моделей или экспериментов (D). Только понимая причины произошедшего, можно сформулировать план действий или рекомендации (Е). Пункты E и F обеспечивают управление на основе данных, но только если полученная информация стимулирует конкретные действия.
Пункт С представляет собой опасную зону, поскольку слишком велик соблазн распространить существующий тренд на будущее: в Excel выберите «Диаграмма» (Chart), нажмите «Добавить линию тренда» (Add trendline) – и вот вы уже экстраполировали текущие данные на другие ячейки и делаете необоснованные прогнозы. Даже при обдуманном выборе функциональной формы модели может быть множество причин, почему этот прогноз ошибочен. Для уверенности в прогнозах следует использовать модель учета причинно следственных связей.
Уровни аналитических данных (Зрелость аналитических данных)
В 2009 году Джим Дэвис, старший вице президент и директор по маркетингу SAS Institute, выделил восемь уровней аналитических данных.
Стандартные отчеты
Что произошло? Когда произошло? Например, ежемесячные финансовые отчеты.
Ad hoc отчеты
Как много? Как часто? Например, специальные отчеты.
Детализация по запросу (или интерактивная аналитическая обработка, OLAP)
В чем конкретно проблема? Как найти ответы? Например, исследование данных о типах сотовых телефонов и поведении их пользователей.
Оповещения
Когда нужно действовать? Какие действия нужно предпринять немедленно? Например, загрузка ЦП, о которой говорилось ранее.
Статистический анализ
Почему это происходит? Какие возможности я упускаю? Например, почему все больше клиентов банков перекредитовываются для выплаты ипотеки.
Прогнозирование
Что, если этот тренд продолжится? Какой объем потребуется? Когда он потребуется? Например, компании, работающие в розничной торговле, могут прогнозировать спрос на продукты в зависимости от магазина.
Прогнозное моделирование
Что произойдет дальше? Как это повлияет на бизнес? Например, казино прогнозируют, кто из VIP посетителей будет больше заинтересован в конкретных пакетных предложениях по отдыху.
Оптимизация
Как улучшить наши процессы? Какое решение сложной проблемы будет самым эффективным? Например, каков лучший способ оптимизировать ИТ инфраструктуру с учетом многочисленных конфликтующих ограничений с точки зрения бизнеса и ресурсов?
Представленные идеи формируют график из книги Дэвенпорта и Харриса Competing on Analytics (2006).
Эти идеи, особенно с большой восходящей стрелой, можно интерпретировать эти уровни как последовательность, своего рода иерархию, где подняться на следующий уровень можно только при условии прохождения предыдущего.
Эту псевдопрогрессию часто называют зрелостью аналитических данных. Если забьете в поисковую строку Google ключевые слова «analytics maturity», то поймете, что я имею в виду. Многочисленные специалисты представляют этот график как набор последовательных шагов для достижения цели, где односторонние стрелки указывают переход на новый уровень.
Аналитическая работа отличается от этого представления: в одно и то же время разные подразделения компании могут проводить анализ разной степени сложности.
Рон Шевлин рационально отмечает:
С точки зрения возможностей нет причин, почему компания не может прогнозировать, например, объем продаж («уровень» 6), не зная, в чем конкретно «проблема» с продажами («уровень» 3)… Но как я, будучи руководителем, должен отвечать на вопрос «Какие действия нужно предпринять немедленно?» без понимания «Что будет, если этот тренд продолжится?» и «Что произойдет дальше?» («уровни» 6 и 7)?
Мне кажется, верный способ интерпретации – подумать о том, что максимальный уровень развития аналитики в компании положительно коррелирует с уровнем инвестиций в аналитику, использованием данных и прочими составляющими аналитической конкурентоспособности, о которой говорят Дэвенпорт и Харрис. Например, если аналитическая команда состоит из кандидатов и докторов наук, перед которыми поставлена задача оптимизировать глобальную цепочку сбыта, очевидно, что компания серьезно инвестирует в направление работы с данными. Если в компании принято работать только с оповещениями и специальными отчетами, значит, она в меньшей степени инвестирует в аналитическое направление и для нее в меньшей степени характерно управление на основе данных.
Можно предположить, что более сложная аналитика по умолчанию лучше и что она способна сделать компанию более конкурентоспособной. Так ли это на самом деле? В интереснейшем исследовании , проведенном MIT Sloan Management Review совместно с IBM Institute for Business Value, были опрошены 3 тыс. руководителей и специалистов по работе с данными в 30 отраслях: как они используют аналитическую работу и что думают о ее ценности?
Один из вопросов касался конкурентного положения компании на рынке, и для него были предложены четыре ответа:
значительно лучше, чем у других компаний отрасли;
несколько лучше, чем у других компаний отрасли;
наравне с другими компаниями;
несколько или значительно хуже, чем у других компаний отрасли.
Компании, выбравшие первый и четвертый варианты ответов, считались лидерами и аутсайдерами отрасли соответственно. Что интересно, от аутсайдеров компании лидеры отличались следующим:
в пять раз чаще использовали аналитику;
в три раза чаще использовали продвинутую аналитику;
в два раза чаще использовали аналитику для управления своей операционной деятельностью;
в два раза чаще использовали аналитику для составления стратегий будущего развития.
Несомненно, есть факторы, осложняющие эту методологию. Во первых, так называемая ошибка выжившего. Во вторых, корреляция между успешностью компании и ее размером (насколько известно, выручка компаний, участвовавших в опросе, была в диапазоне от менее 500 млн до более чем 10 млрд долл.). Возможно, только у более крупных и более успешных организаций имелось достаточно ресурсов на создание и обеспечение функций аналитических отделов, способных на разработку моделей для имитационного моделирования цепочки поставок. Тем не менее все пришли к единому мнению, что более качественная и глубокая аналитика повышает ценность бизнеса.
Авторы исследования выделили три уровня аналитических возможностей: желательный, опытный, преобразованный. Их краткие характеристики приведены в таблице.
От организаций, находящихся на желательном уровне, организации, находящиеся на преобразованном уровне, отличаются тем, что в них:
в четыре раза выше вероятность качественного отбора информации;
в девять раз выше вероятность качественной обработки информации;
в восемь раз выше вероятность качественного анализа;в десять раз выше вероятность качественного распространения информации;
на 63 % чаще используют централизованные аналитические отделы в качестве основного источника аналитических данных.
Конечно, в этом случае также наблюдается сложное взаимодействие между причинами и следствием, но взаимосвязь между конкурентным положением компании на рынке относительно других игроков и уровнем аналитической работы, проводящейся в ней, очевидна.
Так что же тогда мешает компаниям активно применять аналитические инструменты? Два из трех наиболее распространенных ответов на этот вопрос – недостаток понимания, как использовать аналитические данные, и недостаток навыков аналитической работы внутри компании.
В этих ответах перечислены причины, с которыми может справиться любой специалист аналитик. Например, аналитики могут помочь сотрудникам «прокачать» необходимые навыки, и они сами могут более активно доносить ценность аналитической работы до руководителей. Они могут проводить больше исследований и приводить практические примеры, как другим компаниям удалось справиться с похожими трудностями в бизнесе при помощи аналитики. Руководители специалистов по сбору и обработке данных могут выделить ресурсы на улучшение качества данных, чтобы они ни у кого не вызывали сомнения.
Руководители высшего звена могут стимулировать увеличение обмена данными внутри компании, а также отдельно назначить человека, отвечающего за это направление, например CAO или CDO. В этом процессе каждый играет свою роль.