phd-thesis, 我的论文"Understanding Random Forests"的知识库

分享于 

3分钟阅读

GitHub

  繁體 雙語
Repository of my thesis "Understanding Random Forests"
  • 源代码名称:phd-thesis
  • 源代码网址:http://www.github.com/glouppe/phd-thesis
  • phd-thesis源代码文档
  • phd-thesis源代码下载
  • Git URL:
    git://www.github.com/glouppe/phd-thesis.git
    Git Clone代码到本地:
    git clone http://www.github.com/glouppe/phd-thesis
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/glouppe/phd-thesis
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    了解随机森林

    博士论文,Gilles Louppe,2014年07月。 9年 2014月日防御。

    arXiv: http://arxiv.org/abs/1407.7502

    镜像:

    许可: BSD 3条款

    联系人: Gilles Louppe ( @glouppeg.louppe@gmail.com )

    请使用以下BibTex条目引用:

    
    @phdthesis{louppe2014understanding,
    
    
     title={Understanding Random Forests: From Theory to Practice},
    
    
     author={Louppe, Gilles},
    
    
     school={University of Liege, Belgium},
    
    
     year=2014,
    
    
     month=10,
    
    
     note={arXiv:1407.7502}
    
    
    }
    
    
    
    

    数据分析和机器学习已经成为现代科学方法的一个重要组成部分,为基于过去观测的现象提供了自动化程序。 然而,注意应避免使用机器学习作为黑盒工具,而是将它的视为一种方法。 特别是,使用算法应该理想地理解它们的机制。属性和限制,以更好地识别和解释结果。

    因这里,本文的目标是提供随机林的深入分析,并对算法的每一部分进行深入的探讨。 本文的第一部分研究决策树的归纳和随机树集成的构建,引导他们的设计和目的。 our的贡献与随机森林的复杂性分析,显示它们良好的计算性能和可伸缩性,并深入讨论它们的实现细节,如在scikit learning中所提供的。

    在本文的第二部分,我们分析并讨论了随机林在变重重要度量中的可以解性。 本文的核心在于对杂质变重重重要性的理论表征,证明并推导了它的中的一些性质。 结果表明,由于屏蔽效应。node 杂质或者决策树二元结构等因素的影响,在非完全随机树的情况下,变量importances的存在会造成缺陷。

    最后,本文最后讨论了随机森林在大数据集环境下的局限性。 通过实验,我们表明样例和特征同时提供了同时降低内存需求的面性能。 总体上这个范例突出了一个有趣的事实: 通常不需要在非常大的数据集上构建单一模型。 Good performance models在( 非常) 小随机部分建立模型,然后将它们全部组合在一起,从而避免所有的实际负担,从而避免大量数据的存储。


    rep  for  REPO  Repository  rand  随机  
    相关文章