rwa, 基于递归加权平均的序列数据的机器学习

分享于 

3分钟阅读

GitHub

  繁體 雙語
Machine Learning on Sequential Data Using a Recurrent Weighted Average
  • 源代码名称:rwa
  • 源代码网址:http://www.github.com/jostmey/rwa
  • rwa源代码文档
  • rwa源代码下载
  • Git URL:
    git://www.github.com/jostmey/rwa.git
    Git Clone代码到本地:
    git clone http://www.github.com/jostmey/rwa
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/jostmey/rwa
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    

    描述

    这个存储库保存了一种新的递归处理顺序数据模型的代码。 模型在每个前处理步骤中计算一个递归加权平均( RWA )。 通过这种方法,模型可以沿着序列的任意位置直接连接。 这与传统的RNN架构相反,后者只使用前面的处理步骤。 RWA模型的详细描述已经在的手稿中发表。

    alt text

    由于路由器可以计算为运行平均值,因这里不需要对每个处理步骤进行完全重新计算。 分子和分母可以从前面的步骤中保存。 因此,模型规模像LSTM模型这样的其他回归模型。

    在每个文件夹中,将在不同的任务上评估RWA模型。 RWA模型的性能与LSTM模型的比较。 发现RWA在大多数任务上训练速度要快得多,至少是五倍。 当序列变得更长时,RWA模型甚至会更好地扩展。 有关每个结果的详细信息,请参阅上面列出的手稿。

    注意:RWA模型在自然语言问题上没有产生竞争结果。

    下载

    • 下载:邮政编码
    • Git: git clone https://github.com/jostmey/rwa

    要求

    代码是用Python3编写的。 脚本已经升级为使用TensorFlow版本 1.0运行。

    备选实现

    确认

    感谢 Nichol 修正数值稳定性方程。

    实时更正( 变更日志)

    • March年 March: 用于重新调整分子和分母术语的修正方程,用于避免溢出和下溢条件。 对RWA模型的结果进行了。
    • March: th: 更正了用于加载置换MNIST任务的代码的一个特定的Bug。 计算了置换MNIST任务的结果。
    • April年 rd: 在LSTM模型中更正了 Bug。 这里 Bug 影响除复制问题以外的所有结果。 LSTM模型的结果被重新计算。 未观察到显著的性能变化。

    数据  mac  learn  MACH  SEQ  机器学习