RuntimeError:找到dtype但需要浮点型开发者社区

相关文章推荐

道上混的稀饭 · 通俗理解三维向量的点乘与叉乘_三维向量叉乘- ...· 1 年前 ·

力能扛鼎的冰棍 · 刘嘉玲豪宅内摆巨型圣诞树 ...· 1 年前 ·

低调的数据线 · 商务印书馆· 1 年前 ·

发财的黑框眼镜 · 最愛福本莉子さん　直筆サイン入り　チェキ ...· 1 年前 ·

豪爽的麦片 · 杭州南站车票开售 ...· 1 年前 ·

腾讯云

开发者社区

文档意见反馈控制台

首页 TVP

文章/答案/技术大牛

发布

def train_net_ap(self, idx):
    s, a, r, s_prime, done_mask, prob_a = self.make_batch(idx)
    print("a is ", a)
    for i in range(K_epoch):
        td_target = r + gamma * self.v_ap(s_prime) * done_mask
        delta = td_target - self.v_ap(s)
        delta = delta.detach().numpy()
        advantage_lst = []
        advantage = 0.0
        for delta_t in delta[::-1]:
            advantage = gamma * lmbda * advantage + delta_t[0]
            advantage_lst.append([advantage])
        advantage_lst.reverse()
        advantage = torch.tensor(advantage_lst, dtype=torch.float)
        pi = self.pi_ap(s, softmax_dim=1)
        pi_a = pi.gather(1, a)
        ratio = torch.exp(torch.log(pi_a) - torch.log(prob_a))  # a/b == exp(log(a)-log(b))
        surr1 = ratio * advantage
        surr2 = torch.clamp(ratio, 1 - eps_clip, 1 + eps_clip) * advantage
        loss = -torch.min(surr1, surr2) + F.smooth_l1_loss(self.v_ap(s), td_target.detach())
        print("loss is ", loss)
        print("loss dtype is ", loss.dtype)
        print("loss.mean() is ", loss.mean(), loss.mean().dtype)
        self.optimizer.zero_grad()
        loss.mean().backward()
        self.optimizer.step()

loss dtype is  torch.float32 
loss.mean() is  tensor(6.1353,   grad_fn=<MeanBackward0>) torch.float32
Traceback (most recent call last):
  main()
  model.train_net_ap(x)
  loss.mean().backward()
  torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
  allow_unreachable=True, accumulate_grad=True)  # allow_unreachable flag

推荐文章

道上混的稀饭 · 通俗理解三维向量的点乘与叉乘_三维向量叉乘-CSDN博客

1 年前

力能扛鼎的冰棍 · 刘嘉玲豪宅内摆巨型圣诞树价值200万名画放墙角|梁朝伟_网易娱乐

1 年前

低调的数据线 · 商务印书馆

1 年前

发财的黑框眼镜 · 最愛福本莉子さん　直筆サイン入り　チェキタレント/お笑い芸人 - sensibilidadealimentar.com.br

1 年前

豪爽的麦片 · 杭州南站车票开售从东站坐高铁到南站9分钟只要9块钱_手机新浪网

1 年前