Pytorch学习笔记(2): 一维卷积, RNN, LSTM详解_pytorch中一维卷积神经的卷积大小_变量命名好难啊的博客

相关文章推荐

爱看球的毛豆 · 如何使用Camel-jms通过service ...· 1 年前 ·

没读研的足球 · Python ...· 1 年前 ·

慷慨的伤疤 · Python|游邮APP-阿里云开发者社区· 1 年前 ·

气势凌人的打火机 · css怎么选择父元素下的某个元素？_51CT ...· 1 年前 ·

坚强的拖把 · java - 如何从 Maven ...· 1 年前 ·

torch.nn.Conv1d ( in_channels , out_channels , kernel_size , stride=1 , padding=0 , dilation=1 , groups=1 , bias=True , padding_mode=‘zeros’ )

这个函数用来对输入张量做一维卷积

in_channel和out_channel是卷积核个数
kernel_size是卷积核的大小
stride是卷积核移动步长, padding是否对输入张量补0

现在我有一个音频的梅尔频谱数据输入,一个batch为十张频谱, 一张频谱大小为129帧, 频率幅度为128,这个张量表示为(10, 128, 129),

import torch.nn as nn
import torch
input = torch.randn(10, 128, 129)
m = nn.Conv1d(128, 128, kernel_size=4, padding=2)
out = m(input)
print(out.size()) #(10, 128, 130)
可以看出来上面这个函数只在频谱的时域上进行一维卷积,卷积核大小为4帧,在频域上没有卷积.为什么输出是130,反而多了一帧呢? 
这是因为这个一维卷积函数 
 Input(batch_size, Channel_input, length_input)
 
 Output(batch_size, Channel_output, length_output)
  
         L_{out}=\lfloor\frac{L_{in}+2\times padding-dilation\times(kernel\_size-1)-1}{stride}+1\rfloor=\frac{129+2\times2-1\times(4-1)-1}1+1=130

推荐文章

爱看球的毛豆 · 如何使用Camel-jms通过servicemixKaraf连接到EMS/IBMMQ？ -火山引擎

1 年前

没读研的足球 · Python 随机字符串_51CTO博客_python 字符串比较

1 年前

慷慨的伤疤 · Python|游邮APP-阿里云开发者社区

1 年前

气势凌人的打火机 · css怎么选择父元素下的某个元素？_51CTO博客_css选择第二个元素

1 年前

坚强的拖把 · java - 如何从 Maven 中的父项目中排除依赖项？ - SegmentFault 思否

1 年前