机器学习加石油钻井中东大户看了都忍不住一试

aaron 9 0

  2024年3月,在被称为生命禁区的塔克拉玛干沙漠腹地,中石油打出中国第一口,同时也是世界第二口万米钻井。

  从地面往下,每钻进100米,温度就会升高约2℃,同时伴随压力升高。万米深度就面临超200℃高温以及超130MPa的高压。

  在如此环境下,钻杆就像煮熟的面条,极难控制。开篇提到的我国首口万米深井,从地表钻到8000米,用了近5个月。而从8000米到10000米,却耗费4个多月。

  超深井难钻,超深油难采。然而现实却是,中国近10年新增的探明油气储量,超过一半都是深地资源。

  俗话还说,“没有金刚钻,别揽瓷器活”。所以钻井提速的根本,是研制基于超硬、耐高温材料的破岩钻头。

  下面小举一例,展示如何利用机器学习来快准狠地预测转速,所用工具智能数据建模软件DTEmpower。

  其中一口井的数据作为模型训练集,约6000行,用于训练模型。另一口井的数据作为验证集,约3000行,用于验证模型精度。

  这近万行数据,除了钻探过程中实时采集的转速,还包括井深、井斜角、井直径、空隙压力等另外25个变量。

  对于这种只知道变量之间可能有关系,但不知道什么关系的场景,基于机器学习的数据建模就非常适合,江湖称“炼丹”。

  再比如某个变量的正常范围应在30~50之间,但某个传感器抽风,最后输出个999,就出现了异常值。

  具体的异常值清理过程,基于智能数据清理算法AIOD。无需任何经验性知识,一键识别清理潜在异常点,使用门槛超低。

  两个原因:第一,自变量A和自变量B之间可能相关联。比如B=A*2+3,那么B显然就不是独立自变量。

  由于以上两个原因,就需要对变量做相关性分析和重要性分析,剔除部分自变量。自变量减少,实现数据的降维,有利于提高最终模型的精度。

  在重要性分析步骤,利用DTEmpower的MDI节点,进行变量重要度排序,进一步剔除4个重要性偏低的自变量。

  由于钻井过程采集的数据具有时序性,即每组数据都对应特定的时间戳,所以适合进行时序回归类建模。

  机器学习模型精度的判断,通常看R2、MAPE和MSE这几个参数。其中R2最常用,反映模型的拟合程度。取值范围0~1,越接近1表示精度越高。

  全程不过数小时,即可实现钻井转速的快速预测,可做到实时指导一线施工。大大缩短钻井周期,节省钻井经费,这就是机器学习的魅力。

  除了石油钻井,各行业都有很多来自一线的数据。这些数据不会无缘无故产生,都来之不易,与其让它们放在硬盘里睡觉,不如拿来试试做数据挖掘,反正尝试无成本。

  基于流体仿真软件AICFD、结构仿真软件AIFEM、数据建模软件DTEmpower或优化设计软件AIPOD的案例制作成视频或文章,发布到B站、知乎、微信公众号,今日头条,小红书,CSDN等网络平台,鼓励多平台发布。更有软件许可获赠及丰厚奖金等你来拿!

标签: #数据预处理案例

  • 评论列表

留言评论