答案:存储NumPy数组需转换格式,小数组可用tolist()转为列表,大数组推荐用np.save序列化为二进制并存dtype和shape,或通过自定义编码器处理类型。
在使用 MongoDB 存储 NumPy 数组时,由于 MongoDB 原生不支持 NumPy 的 ndarray 类型,需要先将其转换为 MongoDB 可识别的格式。以下是几种常用方法。
示例代码:
import numpy as np from pymongo import MongoClient创建 NumPy 数组
arr = np.array([[1, 2], [3, 4]])
转为列表并插入 MongoDB
client = MongoClient("mongodb://localhost:27017/") db = client["test_db"] collection = db["arrays"]
collection.insert_one({"name": "matrix", "data": arr.tolist()})
读取时再用 np.array() 恢复:
doc = collection.find_one({"name": "matrix"})
restored_arr = np.array(doc["data"])
print(restored_arr) # 输出: [[1 2] [3 4]]
示例代码:
import numpy as np import io from pymongo import MongoClientarr = np.random.rand(1000, 1000) # 大数组示例
转为二进制
buffer = io.BytesIO() np.save(buffer, arr) binary_data = buffer.getvalue()
存入 MongoDB
collection.insert_one({ "name": "large_array", "data": binary_data, "dtype": str(arr.dtype), "shape": arr.shape })
读取时反序列化:
doc = collection.find_one({"name": "large_array"})
loaded_buffer = io.BytesIO(doc["data"])
restored_arr = np.load(loaded_buffer)
注意:需同时保存 dtype 和 shape 信息以便
还原(虽然 np.save/np.load 自带这些信息,但显式保存便于调试)。
常见做法是在插入前统一处理 NumPy 类型:
def convert_numpy_types(obj):
if isinstance(obj, np.ndarray):
return obj.tolist()
elif isinstance(obj, (np.int64, np.int32)):
return int(obj)
elif isinstance(obj, (np.float64, np.float32)):
return float(obj)
return obj
然后在插入前递归处理字典数据。
基本上就这些,按实际场景选择合适方式即可。