topic_interpretability, 主题模型生成主题的语义解释计算

分享于 

5分钟阅读

GitHub

  繁體 雙語
Computation of the semantic interpretability of topics produced by topic models.
  • 源代码名称:topic_interpretability
  • 源代码网址:http://www.github.com/jhlau/topic_interpretability
  • topic_interpretability源代码文档
  • topic_interpretability源代码下载
  • Git URL:
    git://www.github.com/jhlau/topic_interpretability.git
    Git Clone代码到本地:
    git clone http://www.github.com/jhlau/topic_interpretability
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/jhlau/topic_interpretability
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    

    这个软件包包含用于计算主题语义解释的脚本和各种 python 工具: ( 1 ) intrusion任务;( 2 ) PMI/NPMI/LCP-based 观察一致性。

    更新
    • 2016-10-31: 用 updated ComputeObservedCoherence计算多顶端单词的平均一致性 比如 使用选项"-t 5 10 15 20"计算 top-5/10/15/20 单词的一致性,然后将平均值取到 4. our our的研究发现,使用多个顶端n 可以提高性能,而主题一致性评估的敏感度在其他相关论文中)
    目录结构和文件
    • ComputeObservedCoherence.py: 计算观察到的主题一致性( pairwise PMI/NPMI/LCP)
    • ComputeWordCount.py: 根据引用语料库对单词和单词对进行采样。
    • ComputeWordIntrusion.py: 计算单词入侵任务的模型精度。
    • 数据:包含输入文件( 主题和入侵者)。
    • GenSVMInput.py: 生成支持向量机的特征文件。
    • ref_corpus: 包含参考语料库。
    • 结果:包含主题的计算结果。
    • run-oc.sh: 计算观察到的一致性的主要脚本。
    • run-wi.sh: 运行单词入侵任务的主要脚本。
    • SplitSVM: 分割 GenSVMInput.py 生成的特征文件进行 10-fold 交叉验证。
    • svm_rank: 包含支持向量机程序和输入功能文件。
    • wordcount: 包含由 ComputeWordCount.py. 采样的单词计数
    运行系统

    Pairwse PMI/NPMI/LCP 观察到一致性:

    • 生成主题文件并将它的放入数据/
    • 在 run-oc.sh 中设置参数
    • 执行 run-oc.sh

    单词入侵:

    • 生成主题文件( 有入侵者的话) 和入侵者word文件并将它们放入数据/
    • 在 run-wi.sh 中设置参数
    • 执行 run-wi.sh
    输入格式
    • 主题 file: 每个主题( 显示大写单词) 一行。
    • 带入侵者的主题文件: 每个主题一行包括入侵者单词。
    • 入侵者word每个入侵者单词一行( 每一行对应同一行号的主题)。

    在数据/数据中给出了

    参考语料库

    可以通过将引用语料库拆分为多个分区来实现对单词计数的并行处理。 参考语料库的格式是每文档一行,单词应该是 tokenised ( 用空白隔开)。 最好的结果是lemmatising参考语料库(。在其中运行主题模型的文档集合)。 包中给出了示例参考语料库。

    输出
    • 调试( 在 computeobservedcoherence。py/computewordintrusion。py中): 每行一个分数,每个分数对应同一行的主题
    • 在( 在 computeobservedcoherence。py/computewordintrusion。py中) 上调试:得分,主题和入侵者的( 仅适用于 intrusion ) 显示
    注释

    多词主题的词计数工作( 例如 )。 带有词组/搭配的主题使用下划线符号("_") 来连接词组/短语。 比如 主题 1: hello_world this_is_a_collocation苹果 orange Durian

    许可证

    出版物

    原始纸张
    • Jey,大卫。Newman和 Timothy。( 2014 )。 机器阅读:自动评价主题一致性和主题模型质量。 在计算语言学( EACL 2014 )。Gothenburg。瑞典。瑞典的14th 会议的会议中。 530 -539.
    其他相关文件
    • ,Jey,Karl和 Timothy。 主题一致性的自动评价。 在人类语言技术的过程中: 计算语言学( NAACL HLT 2010 ),美国洛杉矶,美国,年北美第一章的11th 年会议。 100 -108.
    • Jey,Timothy和 David。 关于搭配与主题模型。 语音和语言处理的ACM事务 10 ( 3 ),pp。 10: 1-10: 14.
    • Jey Han和 Timothy ( 2016 )。 话题一致性评价对主题基数的敏感性。 在计算语言学的北美第一章的2016会议中,人类语言技术( NAACL HLT 2016 ),圣地亚哥,美国。 483 -487.

    COM  INT  模式  sem  Computation  
    相关文章