Pandas | 剔除csv重复数据
1、原来的文件读入代码df = pd.read_csv('x.csv', index_col='DATE', parse_dates=True)

3、在步骤②的基础上,直接就能把重复数据剔除掉df = pd.read_csv('x.csv')df = df.drop_duplicates(subset='DATE', keep='last')

5、我们来说一下步骤①和步骤②的区别。首先,是否指定索引这个就不说了,太明显了。我们来看两个图。

6、上图看出,是否解析时间碌食撞搁序列将导致DATE列数据类型的不同,而后续的处理是迫切需要datetime类型的。于是我们这样处理:df 租涫疼迟= pd.read_csv('x.csv', parse_dates=['DATE']).dropna().drop_duplicates(subset='DATE', keep='last').set_index('DATE')
