京东量化小馒头之pandas库常用函数汇总 – 量化投资

读原文:

大熊猫普通功用计划,以私人的名。

警察功能仅用于涉及宾格的。,详细运用方式请参照pandas法定的技术文档。

from pandas import Series, 最高纪录帧

import pandas as pd

import numpy as np

带.的为Series或许最高纪录帧反对的方式,只列出许多的保存字决议因素。。

1、根底

.values 获取值,恢复街区反对

.index 获取(行)涉及,恢复涉及反对

Series( index=) 成立布景,称呼委任涉及

pd.isnull pd.notnull 恢复状态为缺乏值的乔治英国数学家和逻辑学家型街区

.isnull 同上

最高纪录帧(columns=,index=) 成立最高纪录帧,可称呼委任行涉及,列涉及

.T 变化转置

del 保存字 拟出

.reindex(method=, fill_value=, index=, columns=) 重行涉及,即依照新涉及成立新反对,可称呼委任缺乏值 衬料方式,缺乏值插值方式,行涉及,列涉及

.ix[ , ] 同上,添入行、列涉及,可传入列表

.drop(axis=) 拟出称呼委任轴上的称呼委任值

.apply(axis=) 沿称呼委任轴使用功能

.sort_index(axis=, by=列名) 对涉及排序,可按照称呼委任列的值举行排序

.order 按值排序

.rank(ascending=, method=, axis=) 超群的

. 反省涉及值鳎性(状态有反复项)

2、约简类,可称呼委任轴、状态摈除缺乏值、改编化涉及信息分类约简。

.sum(axis=, skipna=, level=) 乞和

.mean 平等地数

.idxmax 恢复变憔悴涉及

.cumsum 积聚和

.describe统计数字特性描述汇总

.count 非nan值全部效果

.min 最低的

.quantile 分位数

.median 中位数

.mad 平等地相对离差

.var 方差

.std 标准偏差

.skew 偏斜

.kurt 峰态

.cumprod 积聚积

.diff

.pct_change

.tail 显示尾行,与某人击掌问候

.head 显示开端行,与某人击掌问候

.corr 求对比系数(Series和Series,或许最高纪录帧和最高纪录帧)

.cov 求协变

.corrwith 求对比系数(最高纪录帧的行或列 与Series或最高纪录帧)

.unique 通行鳎值街区

.value_counts(sort=) 求值频率,可传入False称呼委任递减次序军衔

.isin 判别围攻资历

.dropna(how=, axis=, thresh=) 出无用的牌缺乏最高纪录,对最高纪录帧可称呼委任出无用的牌方式

.fillna(inplace=,method=, limit=) 用称呼委任值或字典衬料缺乏最高纪录,可称呼委任状态在本地修正,衬料方式,衬料全部效果限度局限

.unstack 行涉及转列涉及

.stack 列涉及转行涉及

用街区构成改编化涉及

.swaplevel 重排改编化涉及职别按次

.sortlevel 按照二人对抗赛规模的值对最高纪录排序

.set_index(drop=) 将这么大的列转为行涉及

.reset_index 将行涉及转为列

.irow 按照约整数得瞬间名拔取行

.icol 按照约整数得瞬间名拔取列

成立面板最高纪录

.to_panel 最高纪录帧交换为Panel

.to_frame Panel交换为最高纪录帧

3、最高纪录读取

(sep=, delim_whitespace=, header=,skiprows=,converters=,keep_date_col=,parse_date=,na_values=,nrows=,skip_footer=, )

最经用的csv和text论文读取方式

.to_csv 将最高纪录写信反映csv

.from_csv 从csv读取最高纪录

4、最高纪录规整

(on=,how=,suffixes=,left_index=,right_index=) 横向合

.join(how=, on=, ) 按涉及合,可传入一组最高纪录帧

pd.concat(axis=,join=,join_axes=,keys=,names=,ignore_index=) 末端朝前或向上的衔接,也可以传入轴举行横向衔接

np.nan nan值

带菌者化if-else表达,第一点钟为判别状态,可为乔治英国数学家和逻辑学家型街区,后头两个为值

.combine_first 用一点钟最高纪录为另一点钟最高纪录“打补丁”

.pivot 长体式转宽体式,称呼委任行涉及,列涉及名,衬料值列

.duplicated 恢复乔治英国数学家和逻辑学家型Series,表现各行状态是反复行(第一流的涌现的值为False,再次涌现为True)

.drop_duplicates(take_last=) 恢复移以及反复行的最高纪录帧,可称呼委任是保存第一点钟应该最近的一点钟

.map 元素级交换功能,可将功能使用于Series或最高纪录帧某列

.replace 交换称呼委任值,第一点钟决议因素为要被交换的值,瞬间个是用来交换的值,证实字典

.rename(index=, columns=,inplace=) 轴用垂饰安装修复,领受字典,可在本地修正

(right=,labels=) 面元辨别

值频率计算

.any 可用来过滤非常值,外面为耐药量约整数

.take 按称呼委任按次重排序,可领受列表

发生随机重军衔

(prefix=) 计算哑变量矩阵,可称呼委任列前缀

字母行反对方式

.split 按称呼委任值拆分字母行

.strip 修剪空白符和换行符

.join 用称呼委任值衔接字母行

.index 恢复涉及,未检出的则接纳新成员非常

.find 恢复涉及,未检出的恢复-1

.count 恢复称呼委任子串涌现次数

汇编regex反对

.findall 通行婚配regex的掌握模特儿

pd正中鹄的方式

. 按称呼委任模特儿搜索,恢复乔治英国数学家和逻辑学家型街区

. 按称呼委任模特儿获取

. 按称呼委任模特儿获取

.str[] 按称呼委任模特儿获取

剩余部分怀疑,京东量化群搜小馒头便可找到我。

顾及书《使用python举行最高纪录剖析》。

下次有时期会修复经用pandas操纵示例。另,决议促进statsmodels,欢送交流。

读原文:


发表评论

电子邮件地址不会被公开。 必填项已用*标注