有哪些数据分析的模板和案例( 三 )

使用Xgboost模型其参数表示方法与GBDT稍有不同,调参方法相似:先调最大树深max_depth和迭代次数num_round,再调学习率eta、min_child_weight及subsample等。
回归问题则涉及不同loss的遍历,在工作中使用Xgboost亲测rmse和auc效果基本一致。
工作中采用sklearn.grid_search的GridSearchCV进行网格搜索确定参数效果不佳,速度较慢。
9.模型评价及二次特征的构建
像7中简单经验模型中所使用到的模型评价方法,一般采用模型自带的score函数对GBDT和Xgboost等集成模型进行准确率检验。由于Xgboost中没有F1值的评价指标,在工作中有时也会自定义评价指标。
模型训练结束后,如得到较好的准确率,则会观察或导出每个特征的排名,一般认为排名前4位(若得分非常高也可选取后面的特征)的特征可以构建二次特征。以Xgboost为例,采用其分类器的get_fscore()函数可得出特征评分字典,可将该字典进行排序,以便观察较好特征。选取排名较优特征后,可按经验对两个特征进行加减乘除制作二次特征,一般按加法较好。
然后二次特征构建完毕后,再从简单模型开始,继续训练模型,看模型的准确率有没有提升。
总之,做数据分析和机器学习需要不断地练习和揣摩,不断地加深理解,不断地学习新的视频等。只有不断的改进方法,并且做新的尝试,才能不断地进步,把模型调试得更优。
■网友
看到数据问题,强答一下大数据现在很火,但终归到应用上讲,还是要从现实中、身边的例子做起。你能接触到的数据,比如阿里的购物指数,百度的舆情指数,这都是很好的第三方数据获取工具。作为公开的指数,不同的人会有不同的解述,也会有不一样的发现。再比如财经方面的股票数据,如腾讯财经网有股票年中报披露,你可以利用一些爬取工具爬下来,这会是很好的源数据,用作练手。给你一个具体的分析案例:http://zhuanlan.zhihu.com/p/22476819不懂的私信,互相交流
■网友
为什么我邀请的人没人理我啊?这个问题要自己好好反思。
■网友
很好
推荐阅读
- 医院|感染艾滋病毒初期有哪些征兆?可以自行检查吗?共用马桶会传染吗
- 玩游戏花钱最多的有哪些游戏,哪些人
- 旅行|需要准备哪些物品?全面冬季出游清单,建议收藏带宝宝出门旅行
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 互联网在线音乐行业有哪些可能的盈利模式
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 侧重业务逻辑的产品需求规格说明书,需要有哪些要点
- 大学|上海大学第8,前10名有哪些高校?上海市30所大学排名
- 学图像处理有哪些不错的书推荐
- 新浪微博创新基金投资了哪些团队
