Python中的时间序列数据操作总结( 二 ) _Python

#DatetimeIndex(['1920-04-23', '1923-10-29'], dtype='datetime64[ns]', freq=None)
2、period或PeriodIndex:一个有开始和结束的时间间隔。它由固定的间隔组成。
t = pd.to_datetime(["04/23/1920", "10/29/1923"])
period = t.to_period("D")
#PeriodIndex(['1920-04-23', '1923-10-29'], dtype='period[D]')
3、Timedelta或TimedeltaIndex:两个日期之间的时间间隔。
delta = pd.TimedeltaIndex(data =https://www.isolves.com/it/cxkf/yy/Python/2023-01-06/['1 days 03:00:00',
'2 days 09:05:01.000030'])
"""
TimedeltaIndex(['1 days 02:00:00', '1 days 06:05:01.000030'],
dtype='timedelta64[ns]', freq=None)
"""
在Pandas中，可以使用to_datetime方法将对象转换为datetime数据类型或进行任何其他转换。
import pandas as pd
df = pd.read_csv("dataset.txt")
df.head()
date value
0 1991-07-01 3.526591
1 1991-08-01 3.180891
2 1991-09-01 3.252221
3 1991-10-01 3.611003
4 1991-11-01 3.565869
"""
df.info()
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 date 204 non-null object
1 value 204 non-null float64
dtypes: float64(1), object(1)
memory usage: 3.3+ KB
"""
# Convert to datetime
df["date"] = pd.to_datetime(df["date"], format = "%Y-%m-%d")
df.info()
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 date 204 non-null datetime64[ns]
1 value 204 non-null float64
dtypes: datetime64[ns](1), float64(1)
memory usage: 3.3 KB
"""
# Convert to Unix
df['unix_time'] = df['date'].Apply(lambda x: x.timestamp())
df.head()
"""
date value unix_time
0 1991-07-01 3.526591 678326400.0
1 1991-08-01 3.180891 681004800.0
2 1991-09-01 3.252221 683683200.0
3 1991-10-01 3.611003 686275200.0
4 1991-11-01 3.565869 688953600.0
"""
df["date_converted_from_unix"] = pd.to_datetime(df["unix_time"], unit = "s")
df.head()
"""
date value unix_time date_converted_from_unix
0 1991-07-01 3.526591 678326400.0 1991-07-01
1 1991-08-01 3.180891 681004800.0 1991-08-01
2 1991-09-01 3.252221 683683200.0 1991-09-01
3 1991-10-01 3.611003 686275200.0 1991-10-01
4 1991-11-01 3.565869 688953600.0 1991-11-01
"""
我们还可以使用parse_dates参数在任何文件加载时直接声明日期列。
df = pd.read_csv("dataset.txt", parse_dates=["date"])
df.info()
RangeIndex: 204 entries, 0 to 203
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 date 204 non-null datetime64[ns]
1 value 204 non-null float64
dtypes: datetime64[ns](1), float64(1)
memory usage: 3.3 KB
"""
如果是单个时间序列的数据，最好将日期列作为数据集的索引。
df.set_index("date",inplace=True)
"""
Value
date
1991-07-01 3.526591
1991-08-01 3.180891
1991-09-01 3.252221
1991-10-01 3.611003
1991-11-01 3.565869
... ...
2008-02-01 21.654285
2008-03-01 18.264945
2008-04-01 23.107677
2008-05-01 22.912510
2008-06-01 19.431740
"""
Numpy也有自己的datetime类型np.Datetime64 。特别是在大型数据集时，向量化是非常有用的，应该优先使用。
import numpy as np
arr_date = np.array('2000-01-01', dtype=np.datetime64)
arr_date
#array('2000-01-01', dtype='datetime64[D]')
#broadcasting
arr_date = arr_date + np.arange(30)
"""
array(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
'2000-01-05', '2000-01-06', '2000-01-07', '2000-01-08',
'2000-01-09', '2000-01-10', '2000-01-11', '2000-01-12',
'2000-01-13', '2000-01-14', '2000-01-15', '2000-01-16',
'2000-01-17', '2000-01-18', '2000-01-19', '2000-01-20',
'2000-01-21', '2000-01-22', '2000-01-23', '2000-01-24',
'2000-01-25', '2000-01-26', '2000-01-27', '2000-01-28',

Python中的时间序列数据操作总结( 二 )

推荐阅读

做法|炸小鱼，别只会裹面粉！大厨教你正确做法，外酥里嫩，不回潮

点点细雨|原创 43岁侃爷引领潮流，一头红发穿荧光黄卫衣，同框卡戴珊成功博眼球

泡老白茶注意事项,老白茶是什么茶

「搭配」2020秋冬经典色，太好看了

淡泊宁静出自诸葛亮的淡泊明志宁静致远出自诸葛亮的名言

暗影双刀技能怎么加点暗影双刀技能

大表姐的穿衣经|时尚达人的叠穿大法，衣服多到穿不完，素人一试就上瘾了！

封面新闻|京津冀昨日降雨有多强？中国气象局：未超2012年“7·21”

贵阳晚报发展添新引擎，拓宽城市空间

全职太太|你愿意做全职太太吗？全职太太有哪些弊端？快来了解一下吧

科技小机器人iQOO Z1的618霸榜之路！勇夺多平台双冠军，成5G换机首选

鲜闻快讯|没想到乌龟走错路被老师抓了，笑话：我把答案用铅笔抄在龟壳底部

昆虫记被誉为什么曾被鲁迅先生奉为什么的楷模-昆虫记被誉为什么书-

你喜欢你现在的工作吗一天的工作是啥样子

漫画分为几种__画画分别有几种类型？

「十二星座小妹妹」事业有成，飞黄腾达的三大生肖！，下个月开始

卡通|亏损！奥飞娱乐：预计2020年半年度净利润亏损4250万元~5500万元，同比下降138.35%~149.63%

今日头条号不喜欢什么样的内容？

好爸育儿日记|弃中国籍想给黑人生4娃，隐私部位显纹身，30岁中国裁判界卡戴珊

云顶之弈|云顶之弈：开发者日志银河战争所学