Как ломаются сложные системы.

Аватар пользователя iwm

1) Опасность – неотъемлемый атрибут сложных систем

Все интересные системы (транспорт, здравоохранение, энергетика…) естественно и неминуемо опасны по своей природе. На частоту опасных явлений в ряде случаев можно влиять, но процессы, входящие в состав этих систем, сами по себе являются источником неотвратимой опасности. И именно присутствие этой опасности приводит к созданию многочисленных средств защиты, столь характерных для этих систем.

2) Сложные системы тщательно и успешно защищаются от сбоев

Чем опаснее возможные сбои, тем более сложной становится со временем система защиты от них. Системы защиты включают в себя как очевидные технические решения (резервирование, автоматизированные средства обеспечения техники безопасности и т. п.) и «человеческие» решения (обучение, тренировки), так и разнообразные организационные, институциональные, нормативные способы защиты (политики и процедуры, сертификацию, правила…). Все они фокусируются на построении линий обороны, обычно направляющих работу системы в безаварийное русло.

3) Катастрофа подразумевает множество сбоев – одиночных нарушений недостаточно

Оборонительные сооружения работают. Работа систем, как правило, успешна. Заметные глобальные сбои возникают, когда несколько мелких, безобидных в сущности сбоев объединяются, создавая возможность глобальной системной аварии. Каждый из этих сбоев необходим для создания аварии, но только вместе они добиваются результата. Иными словами, возможностей для возникновения системных аварий гораздо больше, чем проявившихся аварий. Большая часть этих возможностей блокируется на ранней стадии развития созданными для этого средствами защиты. Большинство дошедших до уровня эксплуатации блокируется специалистами.

4) Сложные системы содержат постоянно меняющуюся комбинацию скрытых сбоев

Сложность рассматриваемых систем делает невозможной работу без множественных внутренних ошибок. Поскольку каждая из них неспособна привести к аварии, на операционном уровне они рассматриваются как несущественные. Устранение всех этих ошибок признается экономически нерациональным; кроме того, проактивная оценка их влияния на возможность возникновения системной аварии затруднена. Набор ошибок в составе системы постоянно меняется вместе со сменой технологий, организации работ, а также вследствие усилий по их устранению.

5) Сложные системы работают в режиме ограниченной производительности

Из сказанного выше следует, что сложные системы всегда работают как поврежденные системы. Система продолжает функционировать, поскольку содержит множество дополнительных средств обеспечения устойчивости, а также поскольку люди заставляют ее работать, несмотря на наличие множества ошибок. В ходе разбора случившихся аварий почти всегда отмечается, что в системе накоплена история «прото-сбоев», которые чуть не стали причиной аварии. Утверждение, что эти ситуации должны были быть выявлены заранее, обычно основано на упрощенном понимании работы систем. В то время как эта работа – и результирующая производительность системы – есть непрерывно меняющееся сочетание сбоев и восстановлений компонентов (организационных, человеческих, технических).

6) Катастрофа всегда рядом

Сложные системы склонны к катастрофам. Работающие с ними специалисты почти всегда находятся в непосредственной близости – как в пространстве, так и во времени – от возможной аварии: она может случиться в любой момент и почти в любом месте. Способность к катастрофе – фамильное свойство сложных систем. Устранить это свойство невозможно, оно присуще самой природе сложных систем.

7) Попытки найти «корневую причину» аварии – в корне ошибочны

Поскольку системные аварии происходят как следствие сочетания множества ошибок, не существует единственной «причины аварии». Всегда действует множество факторов, несущественных поодиночке, но совместно ведущих к аварии. Поэтому невозможно определить «корневую причину» аварии. Расследования, направленные на выявление такой причины, основываются не на техническом понимании природы сбоя, но лишь на социальной потребности возложения на кого-то или что-то определенной вины за случившееся *1).

8) Необъективность ретроспективной оценки работы специалистов

Знание последствий заставляет нас преувеличивать очевидность приведших к нему событий для специалистов. Это означает, что анализ работы людей, проводимый ex post facto, дает неточные результаты. Знание случившегося впоследствии мешает проводящему анализ объективно оценить поведение специалистов в прошлом. Ему кажется, что люди «должны были знать», что те или иные события «неминуемо» привели бы к аварии*2). Необъективность ретроспективного анализа остается основным препятствием для расследования катастроф, в особенности – при экспертной оценке работы персонала.

9) Люди играют двойную роль: создают сбои и защищают от них

Специалисты управляют системой для того, чтобы получить продукт, ради которого она создана, и предотвратить аварии. Это неизбежная динамическая характеристика работы системы – постоянный поиск баланса между спросом на продукцию и возможностью начала аварии. Сторонние наблюдатели редко осознают двойственность этой роли. Во время стабильной работы основной является производственная роль; при возникновении сбоев – защитная. В обоих случаях сторонний наблюдатель не осознает постоянной и одновременной вовлеченности специалистов в исполнение обеих ролей.

10) Все действия специалистов – авантюры

После аварий, когда случившиеся сбои выглядят единственно возможным следствием прошлых событий, действия специалистов воспринимаются как ошибки или как намеренное грубое пренебрежение этими событиями. На самом деле все их действия – это рискованные авантюры, попытки угадать будущие неопределенные события. Степень неопределенности может меняться от случая к случаю. То, что это именно угадывание, становится ясным вскоре после аварии – последующий разбор полетов собственно и показывает, что они не угадали.

Но то, что успешная работа систем – тоже результат угадывания, не является столь же очевидным и общепринятым.

11) Работа на переднем крае устраняет колебания

Организации колеблются, часто ненамеренно, между достижением целей, рациональным использованием ресурсов, экономией и снижением затрат и контролем рисков аварий. Все эти противоречия устраняются за счет работы специалистов на переднем крае систем. После аварии действия специалистов могут трактоваться как «ошибки» или «отклонения», но такие оценки находятся под влиянием ретроспективной необъективности и не учитывают другие движущие силы, в особенности – требования к производительности.

12) Специалисты – адаптивный элемент сложных систем

Специалисты и линейные руководители первого уровня активно адаптируют системы для получения максимальной производительности при минимуме аварий. Эта адаптация часто производится несистемно, от случая к случаю. Вот некоторые примеры такой адаптации:

  1. Реструктуризация системы для снижения влияния уязвимых элементов.
  2. Концентрация ресурсов в областях, где ожидается наивысший спрос.
  3. Подготовка путей восстановления на случай ожидаемых и неожиданных сбоев.
  4. Внедрение средств раннего обнаружения отклонений в производительности системы с целью соответствующей коррекции производства или активации других методов повышения устойчивости.

13) Уровень экспертизы специалистов в сложных системах постоянно меняется

Сложные системы требуют серьезной экспертизы для управления и эксплуатации. Эта экспертиза меняется при изменении технологий, но она также меняется и при смене сотрудников. В любом случае, обучение и обновление знаний – необходимая часть работы системы. Следовательно, в любой момент времени всякая система включает в себя специалистов с разным уровнем экспертизы. Серьезные сложности, связанные с экспертизой, возникают (1) при необходимости использования редкой экспертизы для наиболее сложных или важных производственных задач и (2) при необходимости развивать экспертизу для использования в будущем.

14) Изменения создают новые виды сбоев

Низкий уровень видимых нарушений в надежных системах может стимулировать изменения, в особенности – применение новых технологий, для устранения несущественных, но частых сбоев. Эти изменения могут привести к появлению возможностей для новых сбоев – редких, но существенных. Когда новые технологии используются для устранения известных мелких ошибок или повышения производительности, они часто становятся источником масштабных, катастрофических аварий. Нередко эти новые аварии имеют даже большее влияние, чем те, что были предотвращены внедрением новых технологий. Новые виды сбоев трудно опознать заранее; внимание уделяется в основном предполагаемым преимуществам от внедрения изменения. Поскольку новые крупные аварии возникают нечасто, до их первого проявления может пройти несколько изменений системы, что затрудняет определение связи аварий с новыми технологиями.

15) Поиск «причины» снижает эффективность мер защиты от будущих сбоев

Пост-аварийные меры в отношении «человеческих ошибок» основаны на пресечении или предотвращении действий, которые могут стать причиной аварии. Такие действия в отношении крайнего звена цепи мало способствуют снижению вероятности аварии в будущем. На самом деле вероятность повторения в точности такой же аварии и без того исчезающее мала, так как сочетание лежащих в ее основе многочисленных ошибок постоянно меняется. Вместо повышения уровня безопасности меры, принимаемые по результатам расследования аварий, только повышают сложность системы. Вместе с ней повышается вероятное число скрытых ошибок и затрудняется работа по их отслеживанию и устранению.

16) Безопасность – характеристика системы, а не ее компонентов

Безопасность – это общее свойство системы; она не может быть сведена к личности, устройству или отделу. Ее нельзя купить или произвести; она неотделима от других компонентов системы. Это значит, что безопасностью нельзя управлять как ресурсом. Состояние безопасности любой системы всегда динамично, непрерывные изменения системы ведут к непрерывным изменениям угроз и управления ими.

17) Люди непрерывно создают безопасность

Бесперебойная работа – это результат деятельности людей, удерживающих систему в приемлемых рамках производительности. По большей части эта деятельность – часть обычной ежедневной деятельности и внешне очень проста. Но поскольку работа системы никогда не бывает полностью свободной от ошибок, именно способность специалистов адаптироваться к меняющимся условиям обеспечивает безопасность системы в каждый момент времени. Эта способность часто предполагает лишь способность выбрать один из стандартных вариантов поведения; однако в отдельных случаях она требует создания новых комбинаций или даже принципиально новых подходов к работе системы.

18) Работа без сбоев требует опыта работы со сбоями

Выявление опасности и успешное управление системой с целью сохранить производительность в приемлемых рамках требуют тесного контакта с ошибками. Добиться высокой производительности удается в тех системах, где специалисты могут почувствовать грань, когда работа системы становится менее стабильной, менее предсказуемой или не может быть уверенно диагностирована. В системах, которые по определению опасны, это значит – вычислять и контролировать опасности так, чтобы общая производительность системы оставалась в согласованных рамках. Улучшения безопасности зависят от наличия у специалистов масштабируемого подхода к угрозам и от их способности прогнозировать влияние корректирующих действий на положение системы относительно границы между максимальной производительностью и неуправляемым разгоном.

Сноски:

*1) Исследования в области антропологии указывают на социальное значение понятия «причина» (ср. Goldman L (1993), The Culture of Coincidence: accident and absolute liability in Huli, New York: Clarendon Press; а также Tasca L (1990), The Social Construction of Human Error, неопубликованная докторская диссертация, кафедра социологии Университета Стони Брук).

*2) Это характерно не только для медицины или техники, но является общим свойством осознания людьми событий, случившихся в прошлом.


Оригинальный текст: Copyright © 1998, 1999, 2000 by R. I. Cook, MD, for CtL Revision D (00.04.21). Ричард Кук, доктор медицины. Лаборатория когнитивных технологий, университет Чикаго.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Текст, приводящий в порядок картину мира. Жаль, что другие статьи автора не удалось найти.

Комментарии

Аватар пользователя ascold
ascold(12 лет 9 месяцев)

Не все там бесспорно, хотя в целом все так и есть. Медики всегда были очень близки к переднему краю науки, объект их интереса уж очень сложен..

Аватар пользователя iwm
iwm(11 лет 11 месяцев)

Почему только медики? В авиации есть такое понятие - предпосылка к летному происшествию (сейчас называется авиационный инцидент). Фактически, это событие которое могло привести к катастрофе но не привело. Считается, катастрофа случается при действии нескольких предпосылок одновременно, одной недостаточно.

Аватар пользователя ТиСв
ТиСв(7 лет 1 месяц)

Предпосылка к летному происшествию...

Ностальгирую...

Аватар пользователя ВаНик
ВаНик(10 лет 5 месяцев)

Ностальгирую...

Да, по точности определений и понятий в документах Советской эпохи. НПП ГА СССР с позиции сегодняшнего дня выглядит как документ-шедевр.

Аватар пользователя valeryma
valeryma(10 лет 1 месяц)

Не только в авиации. Near-miss есть во всех отраслях.

Аватар пользователя hardknap
hardknap(12 лет 2 месяца)

Не может столько правдоподобных утверждений быть непротиворечивыми враз.

Аватар пользователя mk2
mk2(9 лет 2 недели)

Угу. А теперь поглядите, скажем, на человеческий организм, и повторите то же самое. К именно IT это относится в той же степени, что и к другим сложным системам.

Аватар пользователя xiaoxiong
xiaoxiong(9 лет 6 месяцев)

Если бы строители строили бы как программисты пишут программы, то первый бы залетевший дятел, разрушил бы цивилизацию (с) 

Аватар пользователя ViSlav
ViSlav(9 лет 12 месяцев)

А вы уверены, что мы строим иначе? :)

Аватар пользователя ТиСв
ТиСв(7 лет 1 месяц)

Очень интересно. Очень. И, в некоторых моментах неоднозначно.

К примеру, внедрение новых технологий для купирования несущественных, но частых сбоев можно (ИМХО нужно) рассматривать, как внедрение в имеющуюся систему новой системы, с другой идеологией, своего рода трансплантацию органа, с высокой степенью вероятности отторжения. Прогноз негативных последствий воздействия на стадии внедрения, как правило, не рассматривается, т.к. задача стоит улучшить, углубить, расширить, облегчить. И, в итоге, привычные схемы "воздействие-реакция" становятся практически нерабочими, требующими переосмысления, перенастройки, переобучения.

А вообще, статья заслуживает самого пристального изучения и приложения в существующих областях деятельности.

Спасибо.

Аватар пользователя Солдат2категории

У нас это называлось коротко " Система должна быть рассчитана на дурака".

Аватар пользователя Маузер
Маузер(7 лет 7 месяцев)

здесь конфликт - между устойчивостью системы и производительностью(кпд)

Аватар пользователя prometey2013
prometey2013(9 лет 2 недели)

Низкий уровень видимых нарушений в надежных системах может стимулировать изменения, в особенности – применение новых технологий, для устранения несущественных, но частых сбоев.

Если перевести на язык медицины, то получим: "лечим симптомы , но загоняем болезнь вглубь".

Аватар пользователя iwm
iwm(11 лет 11 месяцев)

А я понял как:  "Ничего же до сих пор не было? Так что вы паритесь!" 

Аватар пользователя дрон
дрон(12 лет 3 недели)

У медиков по этому поводу есть афористичное "...п-ц неизличим, х-я сама пройдёт".

Аватар пользователя Vladyan
Vladyan(9 лет 7 месяцев)

Любопытно, спасибо

Аватар пользователя Далёкий
Далёкий(9 лет 4 месяца)

 В системах, которые по определению опасны, это значит – вычислять и контролировать опасности так, чтобы общая производительность системы оставалась в согласованных рамках. 

Улучшения безопасности зависят от наличия у специалистов масштабируемого подхода к угрозам и от их способности прогнозировать влияние корректирующих действий на положение системы относительно границы между максимальной производительностью и неуправляемым разгоном.

В гранит.  Причем определение  подходит  не только к опасным системам ,но и к любым другим. (будь то куча механизмов  или общественные процессы) 

Аватар пользователя iwm
iwm(11 лет 11 месяцев)

Да хоть бы и к семейным отношениям или воспитанию детей. К построению собственной жизни тоже вполне подходит.

Аватар пользователя ТиСв
ТиСв(7 лет 1 месяц)

Для меня это прозвучало как: 

Человек отличается от животного тем, что думает о последствиях.

Аватар пользователя Профаныч
Профаныч(9 лет 9 месяцев)

Пока до ссылок не дошел было некоторое чуЙство...а вот все стало на свои места когда прочитал откуда ветер дует. 

Как-бы вам в двух словах... западная система знаний о системе не может по определению считаться чем-то на что можно хотя бы с некоторым доверием смотреть, не создавали они никогда и ничего подобного. Я имею ввиду большие серьезные системы типа системы энергетики в СССР (теперь РФ), немцы да, когда-то что-то  создали, англичане давно очень давно и то очень спорно... тоже касается и практик управления которые все как невменяемые перенимают (а там нечего перенимать, кто сталкивался тот знает) все эти MBA))) 

Аватар пользователя Lyonya
Lyonya(9 лет 2 месяца)

Прям с языка снял.

Аватар пользователя kue
kue(10 лет 5 месяцев)

На фоне этого текста очень интересно выглядят заявы по поводу того, что мы "уже не понимаем, как работает ИИ". Т.е., с одной стороны, очень хочется эти системы продавать, а с другой очень хочется снять с себя ответственность за их применение. Ну, например, американский ВПК ставит эти типа ИИ на стратегические ракетные системы типа Минитмен и организует провокацию с пуском.. Кто виноват? Оно.. это.. типа ватсон, а так, в принципе, никто. И незачто теперь по нам лупить ответно-встречным

Аватар пользователя Маузер
Маузер(7 лет 7 месяцев)

ООС - отрицательные обратные связи, чем они сильнее тем система устойчивей , но производительность снижается

Аватар пользователя Kifer
Kifer(8 лет 2 месяца)

в целом согласен со статьёй

жизнь по определению опасна

и в наших силах либо приблизить конец

либо постараться продлить своё существование в этом мире:

1. не пользуясь транспортом (воздушным, наземным, подземным)

2. не употребляя вредные напитки и еду

3. не общаясь с сомнительными личностями, а лучше вообще ни с кем

4. занимаясь физкультурой

....

я ничего не забыл?)

Аватар пользователя Kifer
Kifer(8 лет 2 месяца)

кстати, если  что, человек - самая сложная система и ломается очень часто)

так вот, если совсем по теме, есть два принципа:

1. не чинить то, что не сломалось

2. регулярный техосмотр и контроль, но это из области фантастики, даже в космонавтике и госуправлении...

Аватар пользователя Хмурый ослик
Хмурый ослик(9 лет 2 месяца)

Замечательная статья!
Для нас.
И, по сравнению с тем, что было во времена Мизрохи с Такахарой.... Теперь становится понятно, откуда у Запада корни кризиса, если там ТАКОЕ начали псАть...
Можно аплодировать стоя! Они за нас нашу работу сами сделают?

Аватар пользователя mkizub
mkizub(9 лет 5 месяцев)

Текст правильный, но однобокий. Почему-то под сложными системами имеются ввиду большого размера системы. Множество людей, и т.п. Всё то-же самое справедливо и для малых сложных систем, там и человека-то нет. постоянно наблюдающего. Банальный компьютер - очень сложная система, от аппаратной части до программной. Частей. Оно ещё и многоуровневое, с горизонтальными и вертикальными перекрёстными связями.

На компьютерах ещё лучше всё это видно - цена ошибки меньше (это вам не атомную электростанцию развалять), ошибки видны чаще и отчётливей.

А есть ещё сложные социальные системы. Государства, церкви, да хоть банальные профсоюзы.

Аватар пользователя Волшебник Вголубомвертолете

Интересно