Проектирование основ для стадий поиска и разведки месторождений углеводородов

Региональный прогноз областей притока нефти

Regional forecast for zones of oil inflow from Bazhen-Abalak formation in KhMAO-Yugra region of Russia by machine learning method

Региональный прогноз областей притока нефти из баженовско-абалакского комплекса на территории ХМАО-Югры машинным обучением (алгоритм решающих деревьев с генетической селекцией атрибутов)

Key words: Bazhen-Abalak formation, machine learning, genetic algorithm, decision tree, rules retrieval, regional forecast for zones of oil inflow

An approach to the regional forecast for zones of oil inflow from Bazhen-Abalak formation has been formalized and tested. The task was to classify the spatial attributes by machine learning through precedents by algorithm of single decision tree with the genetic selection of combination of such attributes. The rules have been retrieved and the factors have been identified which influence the forecast for zones of oil inflow from Bazhen-Abalak formation intervals. The results are shown in the regional forecast scheme with identification of Bazhen-Abalak formation sweet spots in KhMAO-Yugra region of Russia. Such sweet spots can be correlated with perspective zones to get the inflow from the Bazhen-Abalak formation.

 

Введение

В утвержденной Генеральной схеме развития нефтяной отрасли России до 2020 года баженовская свита Западной Сибири определена одним из приоритетов в инновационном развитии нефтяного комплекса страны. (Молодцов К.В. 2014). Первый промышленный приток нефти дебитом 700 м3/сут из отложений баженовско-абалакского комплекса (БАК) пород получен в 1968 г. на скважине 12Р Салымской площади. Несмотря на успехи в изучении и опыт эксплуатации месторождений баженовской свиты, вопросы ее строения, генезиса природного резервуара, типа коллектора, морфологии залежей, величины запасов и методов их рациональной разработки до настоящего времени носят дискуссионный характер (А.М. Брехунцов, 2011).

За последние годы кратно вырос объем и качество геолого-физических информационных ресурсов. Значительно усовершенствован математический аппарат и алгоритмы анализа и обработки данных, например, методы построения алгоритмов, способных обучаться – машинное обучение (Machine Learning). Машинное обучение находится на стыке математической статистики, методов оптимизации и классических математических дисциплин, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации и интеллектуальным анализом данных.

Целью работы является региональный прогноз получения притока нефти из баженовско-абалакского комплекса на территории ХМАО-Югры на основе региональных данных геолого-физической информации и дистанционного зондирования Земли с использованием машинного обучения, интеллектуальным анализом данных.

Полученные результаты позволят осуществить стратегическое планирование рационального освоения территорий ХМАО-Югры.

Объекты и методы

Объекты

Для исследования использованы данные по результатам испытания в интервале баженовско-абалакского комплекса 438 скважин и следующий набор атрибутов пространственных данных, описывающих исследуемую территорию в пределах района с индексом Р-42 ХМАО-Югра:

  • карта гравитационных аномалий редукции Буге;
  • карта магнитных аномалий;
  • карты изопахит: баженовско-абалакского горизонта; верхней юры; средней юры; нижней юры; радомской свиты;
  • структурные карты по кровли и подошве: баженовско-абалакского горизонта; верхней юры; средней юры; нижней юры; радомской свиты;
  • карты расстояний: до ближайших линиментов; до ближайших крупных тектонических элементов.

Методы

Региональный прогноз областей получения притока нефти из баженовско-абалакского комплекса в данной работе рассматривается как задача классификации с обучением по прецедентам, методом машинного обучения (Machine Learning), с выявлением закономерностей в эмпирических данных (атрибутах пространственных данных) и распространнением закономерностей на всю изучаемую территорию (рис.1). Исследование выполнено с применением свободного программного обеспечения QGIS, SAGA, GRASS, Python (Scikit-Learn)

Рис.1. Алгоритм регионального прогноза притока нефти из баженовско-абалакского комплекса

Присвоение атрибутных свойств пространства в точках положения скважин

Каждой скважине с испытанием в соответствие координатам пластопересечения с БАК присвоено 26 атрибутов из набора пространственных данных. Этот набор данных использован для процедуры кластеризации.

Кластеризация

Выборка из испытаний скважин разбита на три кластера по критериям методики проведения испытания на приток и результатам апробации интервала. К первому и второму кластеру отнесены скважины с раздельным испытанием интервала БАК в обсаженной колонне. К первому кластеру отнесены скважины, в которых получен приток нефти или наблюдались признаки УВ (класс «приток»). Ко второму кластеру отнесены скважины, результат испытаний которых показал отсутствие притока и признаков УВ (класс «сухо»). Третий кластер был сформирован по остаточному принципу и в дальнейшей работе не участвовал, в него вошли скважины с совместным испытанием нескольких горизонтов в обсаженном и не обсаженном стволе скважины.

В итоговую обучающую выборку вошли 235 скважин: к первому кластеру «приток» было отнесено 128, ко второму «сухо» 108 скважин. Дисбаланс в данных, вероятно, объясняется избирательным характером испытаний скважин, так решение об испытании объекта принимались исходя из перспективности интервала по результатам интерпретации геолого-геофизических показателей горизонта, измеренных в процессе бурения или во время каротажных работ, а также результатам испытаний соседних скважин давших приток. Принимая, что в 108 из 235 случаев испытание объекта не подтвердило заключение о его перспективности, эффективность прогноза составляет 54% за историю работ с 1970-х годов.

Выбор метода машинного обучения

Для анализа полученной выборки из многообразия алгоритмов машинного обучения был выбран метод решающих деревьев, как единственный отвечающий следующим ключевым требованиям:

  • иерархическая классификационная модель;
  • извлечение правил на естественном языке, возможность анализа полученных решений.

Решающие деревья воспроизводят логические схемы, позволяющие получить окончательное решение о классификации объекта с помощью ответов на иерархически организованную систему вопросов. Вопрос, задаваемый на последующем иерархическом уровне, зависит от ответа, полученного на предыдущем уровне. Таким образом, обучение решающих деревьев, является способом формализованного анализа по прецедентам, который нацелен на извлечение новых знаний, правил и критериев (Dietterich, 2000)

Описание задачи классификации в терминах машинного обучения

В общем случае задача классификации при обучении с учителем в терминах машинного обучения формулируется следующим образом (Hastie, 2009):

Пусть есть выборка из n объектов , где xii-ый объект выборки “i Î 1..n. Каждый объект описывается k признаками или, как их еще называют, предикторами т. е.  – функция, принимающая объект выборки x и возвращающая значение j-го свойства для этого объекта. Таким образом, X является матрицей размерности n x k, называемой матрицей объекты-признаки. Пусть также определена функция y(x), принимающая объект выборки x и возвращающая класс объекта x.

Требуется построить функцию A(X,y), называемую методом обучения, которая принимает матрицу объекты-признаки X, функцию классов y и возвращает функцию a(x), называемую классификатором. Матрица X, переданная на вход функции А называется обучающей или тренировочной выборкой для классификатора а(x). Классификатор a(x) принимает объект x, обладающий теми же свойствами, что и объекты тренировочной выборки, возвращает информацию о степени принадлежности объекта х к каждому из классов обучающей выборки.

Описание алгоритма обучения

Построение дерева выполнялось по алгоритму С4.5. Обучение предусматривало перебор комбинаций атрибутов (Feature Selection) для снижения «шума данных» и уменьшения влияния «проклятия размерности» с поиском оптимального набора признаков по критерию качества прогноза с помощью генетического алгоритма с методом селекции – «колесо рулетки».

Проблемы исследования

В процессе формирование обучающей выборки и проведения обучения алгоритма выявлены следующие проблемы реализации исследования, влияющие на точность прогноза.

  1. Проблема репрезентативности выборки скважин как объектов описывающих генеральную совокупность свойств изучаемого пространства. Поиск традиционных месторождений ведется исходя из предпосылок осадочно-миграционной теории образования УВ. Наблюдается скученность скважинных данных в отдельных областях (антиклинальных структурах), остальные территории практически не охвачены результатами бурения.
  2. Проблема репрезентативности выборки скважин как объектов описывающих исход испытания. Обучающая выборка описывает два исхода испытания объекта, получен или не получен приток УВ, однако для большинства исследований существует следующая вероятность:
    1. не получен приток УВ – возможно, не качественно было проведено первичное или вторичное вскрытие, так же возможно не качественно проведен вызов и интенсификация притока и п.р;
    2. получен приток УВ, существует вероятность, что при интенсификации добычи произошло приобщение выше или ниже лежащих продуктивных интервалов как в результате перетока за обсадной колонной труб через цементный камень или горную породу.
  3. Проблема малого объема обучающей выборки. Для данной выборки скважин определена невозможность однозначной классификации результатов испытаний скважин при апробировании одновременно нескольких перспективных объектов, включая исследуемый комплекс. Это обстоятельство привело значительному сокращению прецедентов вошедших в обучающую выборку, из 438 испытаний было признано не кондиционным 181.
  4. Проблема разрешения пространственных данных. В некоторых случаях разрешения пространственных данных с регулярной сеткой 250 на 250 метров описывающих исследуемую территорию не достаточно. Было выделено 44 случая с противоположным исходом испытания и идентичными атрибутами пространственных признаков, за счет близкого расположения испытанных скважин. В этих случаях территория признавалась перспективной, 22 скважины из кластера «сухо» были исключены из выборки.
  5. Ограничения алгоритма одиночного решающего дерева. Данный алгоритм не в силах охватить всего многообразия причинно-следственных связей. Для повышения качества прогноза необходимо использовать ансамбли решающих деревьев, каждое из которых осведомлено об ошибках предыдущих, таким образом, комбинировать «слабые» классификаторы, чтобы получить «сильный». Так с помощью алгоритма GBDT (gradient boosted decision trees) в его частной реализации XGBoost на 108 решающих деревьях удалось достичь значительно лучших показателей качества прогноза.

Результаты

Селекция атрибутов

В результате 534 итераций генетического алгоритма. Путем отбора, из 26 атрибутов выделено 6, комбинация которых дала наименьшую ошибку классификации. Обучаемый алгоритм построения решающего дерева показал наилучшие качество классификации при кросс-валидации (табл.1) со следующими пространственными атрибутами:

  1. гравитационные аномалии редукции Буге;
  2. толщина верхнеюрского горизонта;
  3. толщина баженовско-абалакского комплекса (БАК);
  4. толщина среднеюрского горизонта;
  5. расстояние до ближайшего линеамента;
  6. толщина радомской свиты.

 

Показатели качества выбранного алгоритма

Табл. 1. Меры качества прогноза

Точность

прогноза

Sensi

tivity

Speci

ficity

AUC Brier

score

0,762 0,811 0,703 0,7523 0,400

Анализ параметров качества построенного решающего дерева показывал, что алгоритм дает приемлемое соотношение ложных срабатываний к правильной классификации (Sensitivity = 0,811, Specificity = 0,703). Так значение AUC – площадь под ROC-кривой равно 0,75, что соответствует критерию «полезной» прогностической системы. При прогнозе класса «сухо» из 108 в 32-х случаях алгоритм ошибочно распознал класс «приток», а из выборки класса «приток» из 127 случаев в 24 была сделана, неверна классификация, такое соотношение может свидетельствовать о незначительной тенденции к ошибке классификации в пользу класса «приток» (табл.2).

Табл.2. Матрица ошибок

Прогноз
«Сухо» «Приток» Сумма
Факт «Сухо» 76 32 108
«Приток» 24 103 127
Сумма 100 135 235

В целом точность правильного определения класса составила 76,2 случай из 100. Примененный метод машинного обучение путем построения одиночного бинарного решающего дерева, несмотря на то, что не способен охватить все многомерное пространство причинно-следственных связей между атрибутами, обладает приемлемым прогностическим потенциалом.

Результат машинного обучения

В результате машинного обучения алгоритмом одиночного решающего дерева на обучающей выборке из 235 результатов испытаний БАК получен набор формализованных и разделенных по иерархическим уровням правил классификации (табл.3).

Табл. 3. Правила решающего дерева

Правило классификации Прогноз

класса

Точность

правила

Выборка Уровень Ветвь
Толщина верхней юры <=28.5 м «приток» 0.709 127 1 1
Толщина средней юры <=241.5 м «приток» 0.679 56 2
Толщина радомской свиты <=27.75 м «приток» 0.783 46 3
Толщина радомской свиты   >27.75 м «сухо» 0.800 10 3
Толщина средней юры >241.5 м «приток» 0.732 71 2
Толщина радомской свиты <=32.25 м «приток» 0.516 31 3
Толщина БАК <=24.882 м «сухо» 0.714 14 4
Толщина БАК   >24.882 м «приток» 0.706 17 4
Толщина радомской свиты >32.25 м «приток» 0.900 40 3
Толщина верхней юры >28.500 «сухо» 0.657 108 1 2
Значение грав. аномалии <=-16.225 мГал «приток» 0.520 25 2
Толщина средней юры >  213 м «приток» 0.929 14 3
Толщина средней юры <=213 м «сухо» 1.000 11 3
Значение грав. аномалии > -16.225 мГал «сухо» 0.711 83 2
Толщина средней юры <=265.500 «сухо» 0.842 57 3
Толщина средней юры >265.500 «приток» 0.577 26 3
Расстояние до линеамента <=4575.5 м «сухо» 0.750 12 4
Расстояние до линеамента  > 4575.5 м «приток» 0.857 14 4

Описание дерева. Иерархические структуры

Итоговая реализация бинарного решающего дерева сформировала правила с четырьмя иерархическими уровнями (табл.4).

Табл.4. Иерархические уровни правил решающего дерева

Уровень Ветвь 1 Ветвь 2
1 Толщина верхнеюрского горизонта Толщина верхнеюрского горизонта
2 Толщина средней юры Значение гравитационной аномалии
3 Толщина радомской свиты Толщина средней юры
4 Толщина баженовского горизонта Расстояние до ближайшего линеамента

 

Первый уровень в иерархии правил с корневым признаком толщина верхнеюрского горизонта. Второй уровень образуют атрибуты: толщина средней юры (ветвь 1) и гравитационные аномалии в редукции Буге (ветвь 2). Для ветви 1 третий уровень иерархии образует правило с селективным значением толщины радомской свиты, которое классифицирует выборку в 3 из 4 случаев. Самая длинная ветвь образована атрибутом толщина баженовского горизонта с четвертый уровнем в иерархии правил. Для ветви 2 третий уровень классификации образован атрибутом толщина средней юры, описывает классы в 3 из 4 случаев. Четвертый уровень иерархии образует правило с селективным признаком по расстоянию до ближайшего линеамента.

Описание дерева. Правила.

Для удобства представления дерево разделено по второму уровню иерархии правил на четыре ветви 1а, 1б, 2а, 2б (табл.3).

Ветвь 1а сформирована следующими правилом: уменьшение толщины верхней юры (=<28,5 м) с одновременным уменьшением толщины средней юры (<241,5 м) и уменьшением толщины радомской свиты (=<27,75 м), определяет класс «приток». При тех же начальных условиях увеличение толщины радомской свиты больше 27,75 м формирует правило для класса «сухо».

Ветвь 1б описывается следующим правилом: уменьшение толщины верхней юры с одновременным увеличением толщины средней юры и увеличением толщины радомской свиты, что обеспечивает попадание в класс «приток». При значениях толщины радомской свиты меньше 32,25 м вводится дополнительно селективное правило – толщина баженовского горизонта в значении 24,9 м. При превышении этого значения то правило определяет класс «приток», при равном или меньшем класс «сухо».

Ветвь 2а – при увеличении толщины верхней юры (> 28,5 м) с одновременным уменьшением значений гравитационной аномалии меньше -16,225 мГал и уменьшением толщины средней юры (<=213 м), ветвь классифицируется как «приток» при тех же условиях увеличение толщин средней юры (>213м), правило определяет класс «сухо».

Ветвь 2б – при увеличении толщины верхней юры (> 28,5 м) с одновременным увеличением значений гравитационной аномалии больше -16,225 мГал, при уменьшении толщины средней юры меньше 265,5 м, то ветвь классифицируется как «сухо». В значениях толщин средней юры больше 265,5 м добавляется ветвление по селективному признаку «расстояние до ближайшего линимента», уменьшении расстояния менее 4,5 км, то правило определяет класс «сухо», увеличение расстояния выше граничного значения (> 4.5 км) – класс «приток».

Классификация пространства

Согласно полученным правилам была классифицирована исследуемая территория ХМАО-Югры. Результатом классификации является региональная прогнозная схема, на которой выделены классы для территории ХМАО-Югры, которые можно соотнести с перспективными и неперспективными областями для получения притока из баженовско-абалакского комплекса. (рис. 2).

Рис. 2. Схема прогноза притока нефти из баженовско-абалакского комплекса, где зеленым цветом показана территория, классифицированная как «приток», белым цветом – класс «сухо», голубым цветом обозначена гидрологическая сеть

Выводы

  1. Алгоритм построения бинарного решающего дерева с процедурой генетической селекции предикторов обладает приемлемым прогностическим потенциалом, со значением качества прогноза и AUC 0,762 и 0,7523 соответственно.
  2. В процессе генетической селекции из 26 атрибутов пространственных признаков выбраны следующие 6, комбинация которых дала наименьшую ошибку классификации: гравитационные аномалии редукции Буге; толщина верхнеюрского горизонта; толщина баженовско-абалакского горизонта; толщина среднеюрского горизонта; расстояние до ближайшего линеамента; толщина радомской свиты.
  3. Определены пять проблем реализации исследования, влияющие на точность прогноза: 1) проблема репрезентативности выборки скважин как объектов описывающих генеральную совокупность свойств изучаемого пространства и 2) как объектов описывающих исход испытания; 3) малый объем обучающей выборки; 4) недостаточное разрешение пространственных данных; 5) ограничения алгоритма одиночного решающего дерева.
  4. Построено бинарное решающее дерево с четырьмя уровнями иерархии правил. Первый уровень формирует корневой признак – толщина верхнеюрского горизонта. Второй уровень образуют атрибуты: толщина средней юры и гравитационные аномалии в редукции Буге. Третий уровень: толщина радомской свиты и толщина средней юры. Четвертый уровень: толщина баженовско-абалакского комплекса и расстояние до ближайшего линеамента.
  5. Созданы правила и выделены факторы, влияющие на прогноз получения притока из интервалов баженовско-абалакского комплекс
    1. К факторам благоприятным, можно отнести сокращение мощности верхнеюрских отложений (<28,5 м) только этот селективный фактор классифицирует 127 случаев как «приток» с точностью 0,709. При сокращенном верхнеюрском разрезе одновременно увеличенные или сокращенные толщины среднеюрской и радомской свиты повышают вероятность получения притока. Разнонаправленные тенденции изменения значений толщин: увеличение среднеюрской и сокращение радомской, сокращение среднеюрской и увеличение радомской свит, является не благоприятным фактором, кроме случаев аномально увеличенных толщин БАК.
    2. Неблагоприятным фактором относится увеличение толщины верхнеюрских отложений (>28,5 м) это правило разделяет выборку с точностью прогноза класса «сухо» 0,657 для 108 случаев. Если при этом в разрезе наблюдается уменьшение толщины средней юры, то точность прогноза класса «сухо» повышается до 1 при значениях гравитационной аномалии редукции Буге меньше -16.225 мГал, и до 0,842 в значениях больше -16.225 мГал. При прочих равных, увеличение в разрезе толщин средней юры увеличивает вероятность получения притока, кроме случаев, когда значениях гравитационной аномалии повышены и положение скважины менее 4.5 км от ближайшего линеамента.
  6. Результаты представлены в виде региональной прогнозной схемы, на которой выделены классы для территории ХМАО-Югры, которые можно соотнести с перспективными областями для получения притока из баженовско-абалакского комплекса.
  7. Формализован и апробирован подход к региональному прогнозу областей получения притока нефти из баженовско-абалакского комплекса ввиде задачи классификации методом машинного обучения по прецедентам, с генетической селекцией комбинации эмпирических данных (атрибутах пространственных данных), выявлением закономерностей и последущим распространнением закономерностей на всю изучаемую территорию. Принимая во внимание ограничения в исходных данных, проблемы связанные с обучающей выборкой и особенности метода машинного обучения алгоритмом одиночного решающего дерева, к количественной оценки правил и результатов классификации необходимо относиться с осторожность. Однако на качественном уровне выделенные иерархические уровни селективных признаков и их тенденции изменений при создании правил, вполне могут быть использованы для формирования представлений об условиях нефтеносности баженовско-абалакского комплекса горных пород.

Литература

  1. Brekhuntsov A.M., Nesterov I.I. Jr., Nechiporuk L.A., Bituminoznye glinistye otlozheniya bazhenovskogo gorizonta – prioritetnyy strategicheskiy ob”ekt neftedobychi v Zapadnoy Sibiri (Bituminous clay deposits of Bazhenov horizon – priority strategic facility of oil production in Western Siberia), URL: http://oilgasjournal.ru/vol_10/brekhuntsov.pdf
  2. Breiman L., Friedman J., Olshen R., Stone C., Classification and regression trees, Wadsworth & Brooks, Pacific Grove, CA, 1984, 368 р.
  3. Hastie T., Tibshirani R., Friedman J., The elements of statistical learning: data mining, inference, and prediction, 2009, 739 p.
  4. Quinlan R., Programs for machine learning, San Mateo: Morgan Kaufmann, 1993, 302 p.
  5. Poli R., Langdon W.B., McPhee N.F., A field guide to genetic programming, 2008, 250 p.
  6. Standardized Verification System (SVS) for Long-Range Forecasts (LRF), New attachment II-9 to the Manual on the GDPS (WMO-No. 485), 2002, V. I, pp. 14–20.

 

Похожие записи
Метки