有哪些数据分析的模板和案例( 三 )


有哪些数据分析的模板和案例

使用Xgboost模型其参数表示方法与GBDT稍有不同,调参方法相似:先调最大树深max_depth和迭代次数num_round,再调学习率eta、min_child_weight及subsample等。
回归问题则涉及不同loss的遍历,在工作中使用Xgboost亲测rmse和auc效果基本一致。
工作中采用sklearn.grid_search的GridSearchCV进行网格搜索确定参数效果不佳,速度较慢。

9.模型评价及二次特征的构建
像7中简单经验模型中所使用到的模型评价方法,一般采用模型自带的score函数对GBDT和Xgboost等集成模型进行准确率检验。由于Xgboost中没有F1值的评价指标,在工作中有时也会自定义评价指标。
模型训练结束后,如得到较好的准确率,则会观察或导出每个特征的排名,一般认为排名前4位(若得分非常高也可选取后面的特征)的特征可以构建二次特征。以Xgboost为例,采用其分类器的get_fscore()函数可得出特征评分字典,可将该字典进行排序,以便观察较好特征。选取排名较优特征后,可按经验对两个特征进行加减乘除制作二次特征,一般按加法较好。
然后二次特征构建完毕后,再从简单模型开始,继续训练模型,看模型的准确率有没有提升。

总之,做数据分析和机器学习需要不断地练习和揣摩,不断地加深理解,不断地学习新的视频等。只有不断的改进方法,并且做新的尝试,才能不断地进步,把模型调试得更优。

■网友
看到数据问题,强答一下大数据现在很火,但终归到应用上讲,还是要从现实中、身边的例子做起。你能接触到的数据,比如阿里的购物指数,百度的舆情指数,这都是很好的第三方数据获取工具。作为公开的指数,不同的人会有不同的解述,也会有不一样的发现。再比如财经方面的股票数据,如腾讯财经网有股票年中报披露,你可以利用一些爬取工具爬下来,这会是很好的源数据,用作练手。给你一个具体的分析案例:http://zhuanlan.zhihu.com/p/22476819不懂的私信,互相交流
■网友
为什么我邀请的人没人理我啊?这个问题要自己好好反思。
■网友
很好


推荐阅读