1. 前言

在深度学习任务,例如推荐系统中,将关系转换为图表示,即邻接矩阵是常用的操作。

通常的做法是先将关系对数据转换为图数据,然后生成该图的邻接矩阵,再存储为稀疏矩阵。但这种方法不适用于大型矩阵的操作,通常会报内存溢出的错误。以推荐系统的Amazon的评级数据为例(Movielens等同理),这里提供一种方法将图数据直接存储为稀疏矩阵。

数据格式示意图,实际只要用到user_id和item_id两列,且不需要表头:
在这里插入图片描述

2. 传统方法

传统方法先读入数据,然后获取关系对,将关系对保存为图,再用 networkx.to_numpy_matrix() 提取图的邻接矩阵,最后用 scipy.sparse.csr_matrix() 保存为稀疏矩阵。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx
# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系
# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): 
    relation_list.append((row[0], row[1]))
g = nx.Graph(relation_list) # 交互关系转换为图
d_A = nx.to_numpy_matrix(g) # 生成图的邻接矩阵 numpy
s_A = sp.csr_matrix(d_A) # numpy 转换为 稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

3. 直接转换为稀疏矩阵

传统方法只能顺利处理小型矩阵,遇到大矩阵时,networkx.to_numpy_matrix()会报内存溢出的错误。解决办法是不用两步转换,而是用networkx.to_scipy_sparse_matrix()方法直接从图存储为邻接矩阵的稀疏矩阵格式。代码如下:

# 导入包
import scipy.sparse as sp
import pandas as pd
import networkx as nx
# 读取关系对数据
df = pd.read_table('ratings.txt', sep=' ', header=None) # 读取数据集为 pandas
relation_df = pd.DataFrame(df, columns=[0, 1]) # 取出交互关系
# pandas 转 numpy
relation_list = []
for index, row in relation_df.iterrows(): 
    relation_list.append((row[0], row[1]))
g = nx.Graph(relation_list) # 交互关系转换为图
s_A = nx.to_scipy_sparse_matrix(g, dtype=int, format='csr') # 生成图的邻接矩阵的稀疏矩阵
sp.save_npz('adj.npz', s_A)  # 保存稀疏矩阵
# csr_matrix_variable = sp.load_npz('adj.npz') # 读取稀疏矩阵

4. networkx.to_scipy_sparse_matrix()的用法

摘自 to_scipy_sparse_matrix — NetworkX 2.8.8 documentation

to_scipy_sparse_matrix(G, nodelist=None, dtype=None, weight='weight', format='csr')

将图形邻接矩阵作为SciPy 稀疏矩阵返回。

  • G:图
    NetworkX 图,用于构造稀疏矩阵。
  • nodelist:列表,可选
    行和列根据 nodelist 中的节点进行排序。如果nodelist为None,则排序由 G.nodes() 生成。
  • dtype:NumPy 数据类型,可选
    用于初始化数组的有效 NumPy格式的dtype。如果None,则使用 NumPy 默认值(np.float64)。
  • weight:字符串或无可选(default=‘weight’)
    保存用于边权重的数值的边属性。如果 None 则所有边权重为 1。
  • format:{‘bsr’, ‘csr’, ‘csc’, ‘coo’, ‘lil’, ‘dia’, ‘dok’} 中的字符串
    要返回的矩阵类型(默认 ‘csr’)。对于某些算法,稀疏矩阵的不同实现可以表现得更好。
  • A:SciPy 稀疏矩阵
    图的邻接矩阵的稀疏矩阵。
在深度学习任务,例如推荐系统中,将关系转换为图表示,即邻接矩阵是常用的操作。通常的做法是先将关系对数据转换为图数据,然后生成该图的邻接矩阵,再存储为稀疏矩阵。但这种方法不适用于大型矩阵的操作,通常会报内存溢出的错误。以推荐系统的Amazon的评级数据为例(Movielens等同理),这里提供一种方法将图数据直接存储为稀疏矩阵。
的存储与稀疏邻接矩阵scipy_sparse_matrix前言一、方法        今天在做一个表征学习的模型,模型的输入数据,包括节点、边和边的权重。因为中包含的节点很多,直接使用邻接矩阵存储会消耗大量的内存,所以我基于python使用稀疏矩阵的方式存储。        首先通过一个简单的示例来构建 G = nx.Graph() G.add_edge(0,1,weight=2) G.add_edg
self.k = np.sum(self.A,axis=0) 我想用nx里的函数生成G网络的邻接矩阵,然后用np中的sum函数求出度数矩阵。然而如此求出来的k一直是二维的,而且没办法用分片或者flatten()来降维。 还是得把矩阵彻底点转换numpy类型 self.A = np.array(nx.to_numpy_matrix(self.G) ) self.k = np.sum(self.A, import matplotlib.pyplot as plt import numpy as np # np.random.randint(low,high,size=(m,n))产生离散均匀分布的整数,整数属于[low,high);size部分表示m行n列矩阵 a=np.random.randint(0,2,size=(5,5)) #
1、numpy.array() 可以把列表转换为矩阵numpy.array(object,dtype=None,*,copy=True,order=‘K’,subok=False,ndmin=0,like=None) 2、numpy**.**arange() 生成一个向量,可设置三个参数,第一个为开始,第二个为结束,最后一个为步长,可省略开始与步长,默认从0开始,取值范围左闭右开numpy.arange([start,]stop,[step,]dtype=None,*,like=None)中括号的意思表示这
numpy模块中的矩阵对象为numpy.matrix,包括矩阵数据的处理,矩阵的计算,以及基本的统计功能,转置,可逆性等等,包括对复数的处理,均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵,其中data为ndarray对象或者字符形式;dtype:为data的type;copy:为bool类型。 >>> a = np.matrix(
%pylab inline import networkx as nx Populating the interactive namespace from numpy and matplotlib G = nx.Graph() G.add_n...
大家好,今天和大家分享一下算法中的一些基础知识,已经如何使用python中的networkx库时间网络的基本建模操作。内容较多,可通过右侧目录栏跳转。 1. 邻接矩阵 1.1 方法介绍 邻接矩阵的等价表示,邻接矩阵的元素代表网络节点连线之间的交互关系。 如1,对于一个无向无权网络,它的邻接矩阵A是一个对称矩阵。其中对角线元素都为0,;无向表示节点之间的连线不区分方向,即节点之间是双向关系,;无权代表节点之间的边没有权重,此时邻接矩阵A是由0,1元素组成的,如果节点之间存在连边那么元素等于1