MultiTurnResponseSelection, 这里 repo 包含我们的ACL文件数据和源代码

分享于 

3分钟阅读

GitHub

  繁體 雙語
The first public human labeled test set for multi-turn response selection of Retrieval-based ChatBot ( We also provide the training data, and our source code)
  • 源代码名称:MultiTurnResponseSelection
  • 源代码网址:http://www.github.com/MarkWuNLP/MultiTurnResponseSelection
  • MultiTurnResponseSelection源代码文档
  • MultiTurnResponseSelection源代码下载
  • Git URL:
    git://www.github.com/MarkWuNLP/MultiTurnResponseSelection.git
    Git Clone代码到本地:
    git clone http://www.github.com/MarkWuNLP/MultiTurnResponseSelection
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/MarkWuNLP/MultiTurnResponseSelection
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    豆瓣对话语料库

    数据集

    我们发布了豆豆会话语料库,包括一个培训数据集。一个开发集和一个基于。 豆瓣对话语料库的统计信息如下表所示。

    训练Val测试
    会话响应对1m50k10k
    每个会话的正响应111.18
    Fless KappaNANA0.41
    每个会话的最小回合数333
    每次会话的最大真实数989145
    每个会话的平均转换次数6.696.755.95
    每个语句的平均单词数18.5618.5020.74

    测试数据包含 1000个对话上下文,对于每个上下文,我们将 10响应作为候选。 我们招聘三个labelers来判断候选者是否是对会话的正确响应。 正确响应意味着响应可以自然回复给定上下文的消息。 每对收到三个标签,大部分标签作为最终决定。


    就我们所知,这是基于chatbots的第一个标签的检索测试集。 Location:https://www.dropbox.com/s/90t0qtji9ow20ca/DoubanConversaionCorpus.zip?dl=0

    数据模板

    标签 t 会话话语( splited由t ) 响应

    源代码

    我们也发布我们的源代码来帮助别人重现我们的结果。 代码已经在 python 14.04下用 2.7测试过。

    请先运行 preprocess.py 并使用正确路径编辑代码,它会给你一个. bin 文件。 然后,请使用生成的. bin 文件运行 SMN_Last.py,并且训练丢失将在屏幕上打印。 如果你设置 train_flag = false,它将给你的预测评分与你的模型。

    一些提示:

    200-d 单词嵌入在 https://1drv.ms/u/sAtcxwlQuQjw1jF0bjeaKHEUNwitA 共享。! 共享文件有 3个元素,其中一个是word2vec文件。 请下载并替换我的scripy中的输入路径( 训练数据)。

    Tensorflow资源:

    tensorflow代码需要几个数据集,已经在以下路径上进行了上载:

    资源 file: https://1drv.ms/u/sAtcxwlQuQjw1jGn5kPzsH03lnG6U!

    Worddict file: https://1drv.ms/u/sAtcxwlQuQjw1jGrCjg8liK1wE-N9!

    要求:tensorflow> =1.3

    引用

    如果你使用本库中的数据或者代码,请参考本。

    Wu,Yu,"匹配网络: 一种基于Chatbots的多通道响应选择Archtechture新方法。 2017.


    数据  cod  rep  Source  REPO  THIS  
    相关文章