第一章 绪论
1.1 研究背景
1.1.1 中央重磅发文:数据归为可市场化配置的生产要素
《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)作为中央第一份关于要素市场化配置的文件,它的发布“官宣”了数据生产要素的地位。完善市场化配置,应注重土地、劳动力、资本、技术、数据五个改革方向。数据将和土地、劳动力、资本、技术这些传统生产要素一道,共同参与市场化配置,体现了互联网大数据时代的新特征。
加尔布雷斯作为新制度学派的领导人物时曾指出,手上握有最重要生产要素的人,社会地位就相应高,就像农业时代的地主、工业时代的资本家和企业家。在如今的数字化时代,掌握丰富数据的阶层的社会地位将越来越凸显。而数据要想发挥生产要素的作用,必须要有价格,数据只有经过加工处理,在流动分享过程中方能创造价值。因此,建设数据库,提高数据利用率至关重要。
1.1.2 加强工程造价数据库建设势在必行
(1)工程造价信息化发展迫在眉睫
随着信息科学技术广泛地渗透到经济和社会发展的各个领域并成为驱动创新发展的先导力量,我国政府出台了《2006-2020 年国家信息化发展战略》和《国家信息化发展战略纲要》,将信息化建设列入国家战略发展任务,推动信息化、数字化、智能化时代发展。于建筑领域而言,随着 BIM、云计算及大数据等信息技术的涌入,相比过去,建筑行业的生产方式发生了天翻地覆的变化。为了响应国家信息化建设的战略任务,建筑业政府管理部门出台了如下图 1.1 所示一系列政策文件,旨在提升建筑行业信息化水平。
图 1.1 建筑业造价信息化建设相关政策
1.2 问题提出
1.2.1 研究对象的界定
工程造价数据库按照内容和用途分类可以分为“国家级工程造价数据库”和“企业级工程造价数据库”。国家级数据库内容包括单项、单位、分部分项工程的情况及相关政策法规及行业信息,企业级数据库内容一般是企业服务的项目的单项、单位和分部分项工程情况,本文所研究的“工程造价数据库”是指企业已完工程造价数据库,是一种数据来源于工程造价咨询企业内部、面向主题、反应历史信息的静态数据仓库,与传统数据库面向应用、可以处理实时信息、动态更新相区别。
1.2.2 现实问题的提出
(1)工程造价原始数据庞杂,现有数据管理方式落后
纵然造价信息网站、造价协会、企业造价中心层出不穷,但大家只关注自己眼前的利益,即使有大量的数据存储量,也未能最大化发挥数据的效益。很多企业仍然靠资料室保存纸质的造价资料,部分企业的电子数据库功能不健全,多为查阅资料使用,很难真正发挥已完造价数据的重要作用。
(2)现有造价数据库内容挖掘不深入,系统功能不健全
近年来,不少商业网站建立了工程造价数据库为客户提供数据服务,典型代表有广联达、大匠通。其中广联达为造价从业者主要提供两类应用;一是围绕材价价格与供应商形成的广材信息服务;二是围绕量指标、价指标、工程量综合单价指标形成的指标信息服务。大匠通以四库合一(即材料价格库、综合单价库、企业指标库、典型案例库)的形式为企业提供数据服务。本文根据基于用户满意度的工程造价数据库评价指标体系对其进行分析,分析结果如表 1.2 所示。
表 1.2 广联达与大匠通数据库系统分析
第二章 理论基础与文献综述
2.1 工程造价信息管理
2.1.1 工程造价信息管理的范畴
建设项目的全过程都应有准确、全面的工程造价信息贯通。工程造价信息不只是直接构成造价的造价指标、人材机单价,住建部、定额司及相关造价管理部门颁布出台的相关法律法规、行业标准及规范及其他行业动态信息等也都属于工程造价信息范畴。
(1)造价指标
主要包括单方造价、主要分部分项工程含量、人材机消耗量等。
(2)人材机单价
主要包括各工种人工单价,各种类、规格材料单价,自有及租赁的施工机具的价格等,这些价格不能是一成不变的,其应及时更新并与市场价格保持一致。
(3)政策法规、相关行业标准及规范
包括住建部/厅等政府颁布的行业政策及相关法规,定额司发布的各专业预算定额、概算指标以及清单规范等计价依据。
(4)行业动态信息
如造价行业的改革和形势变化、行业的新材料新工艺等动态信息。
..........................
2.2 数据挖掘理论
2.2.1 相关概念界定
(1)数据挖掘
数据挖掘是指从杂乱无章的数据中找出背后隐藏的有价值的信息,其最早出现在美国 1995 年的计算机年会上[8]。从技术层面理解,贝里[9]等提出数据挖掘是以发现大量数据中有价值的知识为目标,对数据进行科学加工处理的过程;陈封能[10]等认为将传统数据处理方法与大数据算法相结合挖掘知识的过程即为数据挖掘。从商业层面看,数据挖掘是从商业数据库中提取信息,转换处理成支持决策的商业信息,其本质是一种商业信息处理手段。总体来说,数据挖掘就是采用科学高效的处理方式对大而杂的数据进行分析,以发现其背后隐含的规律或知识。
(2)原始性数据挖掘
在进行数据挖掘之前首先需要获取相应数据,以具体业务问题为依据,明确选择哪些数据及为什么选择这些数据。本文认为在进行工程造价数据库设计时,也应以具体业务问题为依据,对无序、无规则的原始数据进行分析,确定获取哪些数据进入数据库及进入后文的数据挖掘过程,本文将获取数据的过程称之为原始性挖掘。
(3)描述性数据挖掘
描述性挖掘任务的主要目标是利用分类方法、关联规则分析、聚类分析、异常检验技术等对数据库中的信息进行关联和相似特征、趋势、轨迹、异常等性质的描述。
(4)预测性数据挖掘
预测性数据挖掘任务的主要目标是通过对数据库中数据的分析,找出靶向属性与其它特征属性之间的关联关系,从而预测新项目。
.....................
第三章 研究设计........................................ 26
3.1 整体研究框架...................................... 26
3.2 基于原始性挖掘的工程造价数据库表单设计的研究思路.................................. 28
第四章 基于原始性挖掘的工程造价数据库表单设计.............................34
4.1 原始性挖掘的数据库指标体系构建................................ 34
4.1.1 面向使用对象的原始性挖掘指标........................ 34
4.1.2 面向功能用途的原始性挖掘指标.......................... 35
第五章 基于描述性挖掘的工程造价数据库分析功能设计..........................56
5.1 工程造价数据预处理.............................. 56
5.1.1 必要性及任务....................... 56
5.1.2 数据清洗...................................... 57
第六章 基于预测性挖掘的工程造价数据库预测功能设计
6.1 预测性挖掘方法的选取
6.1.1 预测方法对比
国内外针对某一问题建立预测模型时往往采用案例推理、神经网络、GM 模型等方法,这些方法都有各自的优势与局限性,在具体应用时应根据分析的问题及需求选择最适合的方法。常用的预测方法对比如下表 6.1 所示。
表 6.1 常用预测方法比较与汇总表
第七章 结论与展望
7.1 研究结论与创新
(1)研究结论
目前,随着定额的逐步取消,工程造价数据库的作用越来越深入人心,越来越多工程造价专业人士致力于建设一个科学完整的数据库。因此,本文以工程造价数据库为研究对象,针对目前数据库建设面临的数据标准化程度低、数据分析处理手段落后的难题,设计工程造价数据库原始性挖掘的标准化表单,并在此基础上选用相应的描述性统计及预测性工具及方法,对数据库的描述性统计分析功能及预测模型进行构建,从而得出高质量、高水平的工程造价数据库。本文主要的研究结论主要有以下三点:
1)从需求出发构建原始性挖掘体系,建立了结构化挖掘表单
本文首先以应用为导向、以测算为目标,通过文献识别及实际应用研究得出原始性挖掘的指标内容,然后根据主次因素分析法、层次分析法对影响指标内容的特征因素进行分析,进而筛选出重要特征因素。借鉴 13 国标清单的层级划分建立结构化挖掘表单,从而对进入工程造价数据库的内容及格式进行了规范,也为后续数据库的分析预测功能奠定数据基础。
2)对数据库表单进行预处理,建立了数据库分析功能版块
本文首先对原始性挖掘形成的结构化、规范化的数据库表单,通过数据清洗、数据转换、数据约简等步骤对其进行预处理,预处理后的高质量数据序列利用OLAP 联机分析处理、聚类分析、可视化技术等描述性挖掘工具实现造价数据库多维分析、输出技术经济分析参数以及可视化展示,从而实现数据库的分析功能。
3)引入案例推理技术,建立了数据预测性挖掘模型
案例推理技术是人工智能领域的一种方法,是根据目标案例找出最相似的已完工工程案例指导其求解的一种机器学习方法。本文引入案例推理技术设计数据库的预测功能,并以 69 个广联达指标网项目案例为工程造价数据库中源案例,通过相关性分析简化影响因素,确定影响因素重要程度,最后通过层层检索对单方造价指标预测进行了实际应用,满足现实对预测方法快速、科学的需求。
参考文献(略)