新闻资讯

浅析数据建模的过程都有哪些?

你知道数据建模的过程是怎么样的吗?今天就跟着我们的小编一起来了解一下数据建模的过程都有哪些吧。


数据治理

  选择变量与重构变量


  在进行建模之前,首先要考虑的是使用哪些变量来建立模型,需要从业务逻辑和数据逻辑两个方面来考虑:


  业务逻辑:变量基于收集到的数据,而数据在收集时,会产生与业务层面相关的逻辑。


  数据逻辑:通常从数据的完整性、集中度、是否与其他变量强相关(甚至有因果关系)等角度来考虑,比如某个变量在业务上很有价值,但缺失率达到90%,或者一个非布尔值变量却集中于两个值,那么这个时候我们就要考虑,加入这个变量是否对后续分析有价值。


  在选择变量时,业务逻辑应该优先于数据逻辑,盖因业务逻辑是从实际情况中自然产生,而建模的结果也要反馈到实际中去,因此选择变量时,业务逻辑重要程度相对更高。


  而在变量本身不适合直接拿来建模时,例如调查问卷中的满意度,是汉字的“不满意”“一般”“满意”,那么需要将其重构成“1”(对应不满意)“2”(对应一般)“3”(对应满意)的数字形式,便于后续建模使用。


  除这种重构方式之外,将变量进行单独计算(如取均值)和组合计算(如A*B)也是常用的重构方法。其他的重构方法还有很多种。


  选择算法


  我们在建模时,目标是解决商业问题,而不是为了建模而建模,故此我们需要选择适合的算法。常用建模算法包括相关、聚类、分类(决策树)、时间序列、回归、神经网络等。


  以对消费者的建模为例,举一些场景下的常用算法对应:


  划分消费者群体:聚类,分类;


  购物篮分析:相关,聚类;


  购买额预测:回归,时间序列;


  满意度调查:回归,聚类,分类;


  等等。


  确定算法后,要再看一下变量是否满足算法要求,如果不满足,回到选择/重构变量,再来一遍。如果满足,进入下一步。


  设定参数


  算法选定后,需要用数据分析工具进行建模。针对不同的模型,需要调整参数,例如聚类模型中的K-means算法,需要给出希望聚成的类别数量,更进一步需要给出的起始的聚类中心和迭代次数上限。


  这些参数在后续测试中会经过多次调整,很少有一次测试成功的情况。


  加载算法与测试结果


  算法跑完之后,要根据算法的输出结果来确定该算法是否能够解决问题,比如K-means的结果不好,那么考虑换成系统聚类算法来解决。或者回归模型输出的结果不满足需求,考虑用时间序列来做。


  数据建模如果不需要换算法,那么就测试一下算法输出的结果是否有提升空间,比如聚类算法中指定聚类结果包含4类人群,但发现其中的两类特征很接近,或者某一类人群没有明显特征,那么可以调整参数后再试。


  在不断的调整参数,优化模型过程中,模型的解释能力和实用性会不断的提升。当你认为模型已经能够满足目标需求了,那就可以输出结果了。一个报告,一些规则,一段代码,都可能成为模型的输出。在输出之后,还有最后一步:接收业务人员的反馈,看看模型是否解决了他们的问题。


  以上,就是数据建模的一般过程。


推荐阅读 查看更多