大数据分析模型及其在公共服务交易平台中的应用
公共资源交易平台将业务情况结构化、数据化,具有海量、多样、异构的特点,是工程咨询、采购决策的数据“富矿”。本文分析总结了产业云平台数据挖掘与分析统计情况,汇总分析典型的大数据分析方法,并借助工程大数据、产业大数据等将其推广到公共服务交易数据的分析统计中,让公共服务交易平台上的数据得以盘活并发挥重要作用,为交易参与方创造更大价值。
一、基于平台分析功能的在线决策咨询系统
公共资源交易平台集成沉淀了海量的业务数据,包括买卖关联数据,工程、货物标的信息等。公共资源交易数据虽然依法公开,但因各交易平台系统设计的差异及运管标准不统一等因素,整体上数据字段不统一,信息不完备,交易数据只是做到了存储,分析利用水平处于初级阶段。
利用业务数据提升和改善业务模式,对于公共资源交易平台这类电商平台而言是水到渠成的事情。真实的业务在电商平台上出现时,已是经过验证的结构化数字化的数据,可以直接套用挖掘模型,开发利用。据此,笔者分析梳理公共资源交易中对数据分析的业务需求,以数据化采购决策为核心,盘点相关的模型构建平台+模型数据挖掘利用模式。
(一)招标采购决策对数据分析的具体需求
招标采购交易涉及投资期段规划、预算评估、方案比选、工程技术选型等决策场景,领域广,环节多,一般缺乏数据支撑,业务数据公开却无法享受到公共数据的决策支持。招标采购中对数据分析的具体需求可以概括为四个方面。
1.项目量价评估
工程定量、招标采购定价是工程预算环节的核心,是最需要也是最可能实现数据化的。利用历史资料,根据工程作业清单、采购单由系统估算工程造价是大数据模型的重要应用。特别是土建项目中的原材料和信息化项目中基础软件模块的定额费率等活数据,作为招标控制价、结算审核价的参考或默认值,将大幅缩减造价咨询周期,提高造价的速度和准确度。
2.供应商调查和风险评估
不少买方单位建立了供应商评价和准入机制,但是如果可以在线确定供应商信誉、资质、绩效等方面的情况,让供应商的背景信息、财务状况、过往业绩、合同违约等数据直接显示,可以将调查评估工作做实做细。
3.材料、工艺市场调研和趋势分析
在制定采购计划和策略时,需要进行市场调研和趋势分析,了解当前市场的供需情况及价格走势。数据分析可以通过收集和分析相关市场数据,包括价格指数、竞争对手情况、行业报告等,帮助决策者做出合理的采购决策。
4.投资方案组合优化分析
成本、效益是任何决策中必须权衡的两个核心要素。在大数据和AI的加持下,投资方可以考虑颗粒度更细、规模更大、过程更复杂的采购方案。如根据业务领域和工作内容来分拆项目,独立招标,并对分项标根据历史投标情况得到供应商推荐。再如大数据评标,可以在平台范围内对供应商的价格、质量、交付周期等数据综合量化,在风险可控的条件下寻求最高投入产出比,或者在风险可控、达到绩效目标的限定下给出成本最优的采购组合方案。
(二)常见的大数据模型及其在产业平台上的应用
抽取需求的共性,结合一些既有的应用案例,可以探索得到大数据分析模型 + 公共资源交易平台协同路径和应用模型:分为基于时间序列分析的数值预测、基于多变量线性回归等参数拟合方法的分析评价以及运用启发式搜索实现投资方案组合优化。
1.数值预报:运用时间序列分析方法
时间序列分析是一种研究时间序列数据的统计方法,旨在揭示数据的内在规律和趋势。一些产销数据平台使用平滑法抽取时间序列中的趋势成分,建立起运用历史数据推断产销走向的应用。
应用的核心是H-P滤波平滑法。用Y表示观测得到指标的时间序列。如果从Y中抽取出了趋势序列yT,则Y是围绕yT变动的序列,剩余的序列yR=Y-yT就是一个围绕零上下波动的、在整个观测时间段上均值为零的序列,呈现出“白噪声”的特性。
Hodrick和Prescott指出,对于yT平滑程度的度量,可以采用其二阶差分的平方和作为指标。yR是在整个观测周期上均值为零的、刻画Y对yT的偏离的时间序列。最好的趋势分解,就是趋势线平滑(没有“毛刺”),而且剩余序列偏离总程度(平方和)最低,由此引出如下问题:
其中λ是反映平滑度要求的权重惩罚因子,是取值恒正的实数。λ越大,趋势序列越平滑。
2.分析评价:不断自我优化的评价打分模型
参数模型是一种根据历史数据进行参数估计,并利用这些参数进行预测的数学模型。常见的参数模型包括线性回归模型、韦伯模型等。这些模型基于理论确定数据的模式关系式,再通过代入大量观测数据拟合确定关系式中的待定参数,确定一个统计意义上“最逼近”实际情况的变量关系,输入一些变量,求取新变量给定时的因变量。
Wareconn保修云平台基于线性回归模型、韦伯模型,训练神经网络,用于分析产品损坏的原因,并对每一批次出货产品进行可靠度统计,有针对性地采取预防措施,提高了产品质量,降低了保修服务成本。可靠性研究认为,元件的在投用后t时间内失效的概率服从Weibull分布。
保修云平台将Weibull分布的公式进行变形,得到2变量线性方程组,其中的失效概率(频次)、失效时工作的时长均从保修业务资料中得到。
原式变为关于未知变量k和−klnλ线性关系A=Bk+(−klnλ)。
A、B通过业务实测数据计算得出,k、−klnλ为待定的模型参数。基于保修云平台大量的保修退运资料,可以得到许多的A、B值,代入线性回归方程,解算得出最佳的k、−klnλ,进而确定Weibull分布。根据分布,可以量化分析预测未来时间内保修退运量。
3.启发式搜索:将多变量寻优应用到投资方案组合优化
利用平台上大量的投资数据,可以对大型采购业务的内容进行划分,建立标段划分或组合项目,进而可以有针对性地实施招标采购。在大数据的辅助下,容易建立标段比例对项目整体效益指标的经验关系,将其存储在数据库中,形成效益指标关于项目拆分的多元函数。运用微粒群优化(Particle Swarm Optimization, PSO)等启发式搜索方法,在项目拆分组合的可行域中按照计算值与实际参考值之差综合最小的原则,可以求解得到最优投资组合。
PSO算法基于群体智能原理,通过模拟鸟群或鱼群等群体的行为方式进行搜索和优化。在PSO中,解空间中的每个解称为“粒子”,每个粒子根据自身的当前位置和速度,以及整个群体的历史最优位置来更新自己的位置和速度。迭代计算中,粒子探索解空间全局,最终逼近最优位置,也就是对应最优适应度的解。
二、大数据模型在公共资源交易平台上的应用探索
大数据结合人工智能,完全“利旧”,即用成熟的经典模型和在其他产业平台得以验证的数据服务产品,即可盘活用好公共资源交易平台的海量资源,提供统计指标、动态排名、投资咨询等优质数据咨询服务。
(一)工程成本数据库
在信息化工程领域,软件开发工作量测算与价格核算是招标采购工作的难点。国际上,国际基准比对标准组织从20世纪90年代就开始收集软件历史项目数据,软件产业发展水平较高的国家(如美国、芬兰、印度、荷兰、日本、韩国等)已经建立了行业级软件过程基准数据库。北京软件造价评估技术联盟指出,基准比对方法的应用离不开大量的软件项目过程数据(包括项目规模、项目领域、开发环境、工作量生产率、成本、缺陷率等),在获得较多的真实有效数据后,形成有效的基准数据库,作为衡量软件生产力的基准。
随着新基建和信创产业蓬勃发展,公共资源交易平台中与软件相关的服务和产品交易迅速增长,公开的合同、招标文件、投标文件中,包含了大量实际的经过测算和权衡的量价对应信息。特别是规模—生产率、工程类型—人月费率这些指标,实际上是在一定的趋势下有所波动的。但由于传统统计方式的滞后性,中国软件行业基准数据只能在次年三季度公布,存在严重的滞后性。如果公共资源交易平台对业务资料进行加工统计,完全有可能按照季度甚至是天来更新,实现期货、证券、外汇牌价一样的软件工程造价实时指数。
密集更新的指数,为软件相关交易创造了数据趋势预测、波动分析等形态分析的便利,同时为软件造价的成因追溯等动力学研究提供了基础。
青矩成本管理平台在汇集工程数据方面,有了更深入的探索。主要的成果体现在成本云和工程大数据平台两方面。成本云分析总结各类成本,提供以下3种服务:①目标成本:科学制定目标成本,实时监控成本执行情况,预警异常成本状态;②合约规划:目标成本逐级分解,指导招标管理工作;③动态成本:实时监控实际发生成本与目标成本对比,动态反映项目成本执行情况。
工程大数据平台则将工程数据标准化、结构化,呈现不同工程的几个关键指标,诸如建筑规模、工程造价、工程类型等,记录清单综合单价构成,导出单位规模造价。按照清单项目特征,在综合单价指标库中自定义查询特定材料、项目或工程的单价。
(二)供应商动态排名与评价
招标采购中,对于供应商的评价是重要的基础工作,同时又涉及大量数据。评价指标完全来自供应商的业务运营状况,可以采用以下交易平台的数据进行测算。
供应商信誉:供应商的商业信誉、声誉和品牌知名度。
供应商能力:供应商的技术实力、生产能力、供货稳定性、质控能力。
供应商经验:类似项目或领域中的经验和成功案例。
交货准时性:供应商的交货能力和准时交付的记录。
成本效益:供应商提供产品或服务的价格和性价比。
售后服务:供应商的售后服务支持和问题解决能力。
利用大数据分析技术,可以根据历史数据和实时数据,建立预测模型、关联模型或分类模型等,以实现供应商的综合评价和排名。
动态排名评价中,基于线性回归分析的层次分析法(AHP)应用较多。该方法将评价指标进行层次化排序,通过对各指标的权重确定,得出供应商的综合评价结果。先给定一个经验模型,继而通过大量实际数据对模型参数进行拟合,动态地确定某些排名指标占评价分数的权重,训练优化。其中训练方法可以使用应用于多元函数求极值的启发式搜索,如微粒群优化(PSO)。
信息系统具备实时性和数据完备性,同时可以实现数据可视化与报告生成,大幅提升分析的效率与质量。
三、总结与展望
以上简述了经典大数据分析模型满足招标采购业务数据分析需求的思路与技术路线。SaaS平台集成大数据功能的成功实践启示我们,经典方法、简单模型与海量数据相得益彰,充分运用真实海量结构化的优质数据,得出的分析结果可以为平台用户带来显著的降本增效效果。
不妨大胆预测,未来的招标采购,将追求以下目标,在信息化、数据化、智能化方向上跨越式发展。
(一)数据就是实际
未来,经审核收录在交易平台的数据将成为最为真实鲜活的业务写照。数据表、字段构成时变的多维数据空间中,业务群的即时状态被充分数字化,其在不同业务管理维度上的“投影”就是工程项目台账、项目建设全过程资料和特定专业供应商名录。平台用户掌握平台数据,就掌握了招标采购的全量信息,极大地拓展了管理的要素范围与阶段跨度。
(二)数据就是规则
新数据不断修正模型,让拟合参数在特定区间的拟合优度逼近真实,海量数据的产生,使得分析预测模型持续得到有监督的学习训练,提升关联分析的“视野”和“格局”,得以应对更多变化。未来的招标采购指标、比选原则都可以通过模型来表达,实现从拍脑袋、找专家向查数据、算指标、问模型转变。
(三)数据就是决策
从信息化走向数字化,人们用了大约20年的时间,而随着大语言模型等人工智能产品的推广应用,人们正在加速迈向数据化。公共资源交易的场景中,每一条交易记录都成为修正供应商评价、行业统计指标的微变量,影响着分析统计的结果,进而影响到基于数据的决策。如果说“民主化”是避免个体关注指标不当、认定失真的思路,那么“数据化”则是充分发挥人工智能优势,进一步促进公共交易公平、公正的技术保障。
本文首发于《招标采购管理》2024年第3期。
作者:朱海娇 王兆甲单位:青矩技术股份有限公司