python读取数据集的方法(python 数据读取)
python写入和读取h5、pkl、mat 文件
python中使用h5py对HDF5文件进行操作。
1、创建文件和数据集
import h5py
import numpy as np
imgData = np.zeros((2,4))
f = h5py.File('HDF5_FILE.h5','w') #创建一个h5文件,文件指针是f
f['data'] = imgData #将数据写入文件的主键data下面
f['labels'] = np.array([1,2,3,4,5]) #将数据写入文件的主键labels下面
f.close() #关闭文件
f = h5py.File('HDF5_FILE.h5','r') #打开h5文件
for key in f.keys():
print(f[key].name)
print(f[key].shape)
print(f[key].value)
输出结果:
/data
(2, 4)
[[ 0. 0. 0. 0.]
[ 0. 0. 0. 0.]]
/labels
(5,)
[1 2 3 4 5]
Process finished with exit code 0
写入读取pkl文件
1)字典类型:
import pickle
dict_data={'name':["张三","李四"]}
with open("dict_data.pkl","wb") as fo:
pickle.dump(dict_data,fo)
with open("dict_data","rb") as fo:
dict_data=pickle.load(fo,encoding='bytes')
print(dict_data.keys())
print(dict_data)
print(dict_data["name"])
结果如下:
dict_keys(['name'])
{'name': ['张三', '李四']}
['张三', '李四']
2)列表类型
import pickle
list_data=["张三","李四"]
with open ("list_data","wb") as fo:
pickle.dump(list_data,fo)
with open("list_data","rb") as fo:
pickle.load(fo,encoding='bytes')
print(list_data)
print(list_data.keys())
pirnt(list_data["name"])
mat文件
mat数据格式是Matlab的数据存储的标准格式。在Matlab中主要使用load()函数导入一个mat文件,使用save()函数保存一个mat文件。对于文件data.mat:
load(‘data.mat')
save('data_1.mat','A')
其中'A’表示要保存的内容。
在python读取mat文件:
1、读取文件:
import scipy.io as scio
file1='E://data.mat'
data=scio.loadmat(file1)
注意,读取出来的data是字典格式,可以通过函数type(data)查看。
print type(data)
结果显示
type 'dict'
找到mat文件中的矩阵:
print data['A']
结果显示

python 图片读取 常用操作方法
批量获取图片:
keras 多张图片:
很多情况下,你并不能使用以上这些方法来直接输入数据去训练或者预测,原因是你的数据集太大了,没办法把所有的图片都载入到内存当中。那keras的data generator就派上用场了,当你的模型需要训练数据的时候,generator会自动从cpu生成一批图片,喂到GPU里面让模型进行训练,依次循环,直到训练结束。
压缩数据中维度为1的维度, numpy.squeeze()
模型是不能直接对图片进行卷积操作的,必须先转化为numpy数组才能输入模型里面去,而且如果数据集的图片尺寸不统一,也有不同的操作细节。
keras 模型保存路径: C:\Users\你的用户名.keras\models
notop代表是否包括顶层的全连接层,默认include_top=True,包括全连接层。
tf -- tensorflow 或者 CNTK
th -- theano
序列数据集怎么加载
可以使用Python中的pickle模块来加载序列数据集,pickle模块提供了一种方法来将Python对象存储到文件中,并且在需要的时候可以将对象从文件中读取出来。
使用pickle模块加载序列数据集的步骤如下:
1. 导入pickle模块:import pickle
2. 打开要加载的序列数据集文件:f = open('filename.pkl', 'rb')
3. 使用pickle模块的load()函数加载数据集:data = pickle.load(f)
4. 关闭文件:f.close()
python读取试验箱数据的过程?
Python 读取试验箱数据的过程一般需要以下几个步骤:
确定试验箱数据的存储格式,比如是 CSV、Excel、TXT 等。
导入相关的 Python 库,比如 Pandas、NumPy 等。
使用 Pandas 库的读取文件函数(如 read_csv())或者其他相关函数来读取试验箱数据文件。
根据实际需要对读取的数据进行预处理、清洗、转换等操作,比如处理数据缺失、重复、异常等问题,也可以将数据转换为所需要的格式,比如时间序列数据。
根据实际需要进行数据分析和可视化,比如绘制统计图表、计算数据指标等。
下面是一个简单的 Python 读取 CSV 文件的例子:
bashCopy codeimport pandas as pd# 读取 CSV 文件df = pd.read_csv('test.csv')# 预览数据print(df.head())# 数据清洗和预处理df = df.dropna() ? # 删除缺失值df = df.drop_duplicates() ? # 删除重复值# 统计分析和可视化print(df.describe())
df.plot(kind='hist')
需要注意的是,具体的读取和处理方法可能因为数据格式和处理需求的不同而有所差异,因此需要根据具体情况进行调整和修改。