Depth-Estimation-using-CNN, 利用CNN获得简单深度图

分享于 

7分钟阅读

GitHub

  繁體 雙語
Simple depth maps obtained by using CNN
  • 源代码名称:Depth-Estimation-using-CNN
  • 源代码网址:http://www.github.com/ArpitaSTugave/Depth-Estimation-using-CNN
  • Depth-Estimation-using-CNN源代码文档
  • Depth-Estimation-using-CNN源代码下载
  • Git URL:
    git://www.github.com/ArpitaSTugave/Depth-Estimation-using-CNN.git
    Git Clone代码到本地:
    git clone http://www.github.com/ArpitaSTugave/Depth-Estimation-using-CNN
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/ArpitaSTugave/Depth-Estimation-using-CNN
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    基于数据驱动方法的深度估计

    简介

    飞行时间。结构光和立体技术在深度图估计中的应用。 在图像捕获速度。结构描述和环境光性能方面都有自己的优缺点。 单目线提示,如:纹理和梯度变化,阴影,色彩/雾,以及精确的深度估计。 这些是复杂的统计模型,容易受到噪声的干扰。 近年来,数据驱动方法在深度估计中得到了广泛的应用。 如果提供足够的数据来学习更粗细的细节,那么这些数据驱动方法就更容易。

    基于的卷积神经网络

    在深度学习中,CNNs被广泛应用于图像处理应用。 卷积层是CNN的基本构建块,它与池和ReLU激活层结合。 在每个图层学习内核学习Kernel通过在每个图层上应用不同的滤镜来学习输入图像中的特征。 随着我们深入到网络,特征地图能够直观地识别复杂的特征和对象。 ConvNets对图像分类非常成功,但近年来已经被应用于图像预测和它的他应用。 增加的增加和反卷积层给出了高层次的压缩特征映射的数据预测方法。

    image

    相关工作

    完全自动 2 D-to-3D转换算法: 采用 2D 个图像或者视频帧作为输入和输出 3D 立体图像对的Deep3D [1]。 来自纽约大学的David Eigen 提出了一个单单单目图像架构,它采用了两个深度网络栈,称为Multi网络 [2]:: 一种基于整个图像进行粗略全局预测的方法,另一种则是在本地细化这里预测。 它被训练在真实世界的数据集中。 to FlowNet: 使用卷积网络的学习光流"[3] 使用视频实际使网络学习运动参数,从而提取光流。 Training [4] 神经网络对图像灰度分布的训练与比较立体数据提取深度信息的方法及其各自的修补。 Similar深度和层次 {CRFs}" 利用回归方法进行深度估计和分层 [5] 相似 [4] 利用不同尺度的图像修补提取深度信息。

    image

    多尺度网络

    image

    image

    FlowNet

    方法

    ConvNet体系结构

    用于培训。验证和测试的图像和地面真实深度图是通过使用混合软件工具生成的3D 个模型。 作为第一步,我们使用 SteroConvNet [6],网络的前半部分如下所示。 第二部分是最后一个卷积层的镜像图像,用卷积和积分的方法替换卷积。 输入图像,即使由连接的左和右图像对组成,网络也将它作为两个独立的图像。 这里,参考输出标签是使用"搅拌机雾"函数生成的真实真实深度图。

    image

    立体声ConvNet架构

    B。立体声ConvNet体系结构

    在深度立体声ConvNet中,输入保持不变,但结构通过额外的卷积和反褶积层进行修改。 为了捕获更多细节,还提高了过滤器的深度,提高了 [3]的能力。

    C Patched更深入的立体声ConvNet体系结构

    引用 [4] 和 [5],输入流已经增加到 6个更深的立体声 ConvNet,通过将左图像分解为 4个。 因此,就像参考文献中所提到的,深度图的精确度是。

    image

    更深入的立体声ConvNet架构

    结果

    立体声ConvNet架构
    + 平滑无孔
    + 粗结构保留
    边的-Blurred
    -Sharp结构丢失
    -Fine对象被着色或者丢失。
    测试= 20的时间

    更深入的立体声ConvNet架构
    + 平滑无孔
    + 粗结构保留
    + 边缘更清晰
    边缘的-Still噪声
    -Fine细节/对象被着色或者丢失。
    Note:The 增加网络的深度了解有关场景的更多细节。
    测试= 70的时间

    更深入的立体声ConvNet架构
    + 平滑无孔
    + 精细结构保留
    + 图像以较低的噪音预测。
    用于训练和测试的-Time。
    Note:The 增加了网络的深度,提高了网络的数据分辨率
    有关场景的详细信息。
    测试= 145的时间

    立体声ConvNet架构:

    image

    更深入的立体声ConvNet架构:

    image

    更深入的立体声ConvNet架构:

    image

    3D 针对补丁的深度立体声ConvNet架构的建模:

    图像预期输出输出输出
    1_s2_s3_s
    4_s5_s6_s

    结论

    如果avialable有足够大的描述性标记数据集,则数据驱动深度估计方法是有效的。 补丁深度立体ConvNet预测深度图非常类似于地面真实。 网络训练的时间与CNN架构的深度和复杂性成正比。 在进一步的实现中,我们计划将补丁深度StereoConvNet的架构与多尺度深度网络结合,并观察真实世界图像的结果。

    引用

    [1]"。deep3d: 完全自动 2 D-to-3D视频转换,带有深层卷积神经网络"junyuan Xie,Ross Girshick,Ali Farhadi,华盛顿大学。

    [2]"基于多尺度深度网络的单幅图像深度图预测"david Eigen,Christian Puhrsch,Rob Fergus部门。 纽约大学Courant学院的计算机科学。

    [3]"。flownet: 用卷积网络学习光学流"。 Dosovitskiy和P。费希尔,ICCV,2015.

    [4],Bo,Yuchao,Computer,Computer,Computer,Computer,Computer,Computer,Computer,Computer。

    ( 译): [5]"一种基于卷积神经网络的图像分割方法"法律 Zbontar,大学 Ljubljana Vecna,Yann LeCun,机器学习研究 17 ( 2016 )。

    [6] https://github.com/LouisFoucard/StereoConvNet


    DEP  深度  
    相关文章