开发工具

展开

Pandas for python 免费版下载

大小:3.0M系统:Win/7/8/10 类别:开发工具语言:简体中文 时间:2019-08-18 15:51:26
软件介绍

Pandas是python的数据分析包,软件可以帮助程序员在开发的过程中优化代码构建的速度,让您的程序变得更加简单,操作的流程更加快捷;现在,Pandas已经运用于大型的金融程序开发,在Python代码中广泛应用,其开发的速度非常快,只需要您专注于应用程序的一个功能,就可以创建一个更快的专业工具,轻松处理python中的数据和缺失的代码。

Pandas for python

软件功能

  pandas 是一个提供快速,灵活和表达性数据的Python包结构设计使结构化(表格,多维,潜在异质)和时间序列数据都很容易和直观。

  它旨在成为实践中的基本高层建筑,真实世界在Python中的数据分析。此外,它有更广泛的目标成为最强大灵活的开源数据分析/操作工具可用任何语言。它已经很好的路上实现这一目标。

  pandas非常适合许多不同类型的数据:

  - 带有异构类型列的表格数据,如SQL表或Excel电子表格

  - 有序和无序(不一定是固定频率)时间序列数据。

  - 任意矩阵数据(均匀类型或异质)与行和列标签

  - 任何其他形式的观测/统计数据集。数据实际上不需要被标记以被放置到熊猫数据结构中

  一个快速有效的DataFrame对象,用于集成索引的数据操作;

  用于在内存中数据结构和不同格式之间读取和写入数据的工具:CSV和文本文件,Microsoft Excel,SQL数据库和快速HDF5格式;

  智能数据对齐和缺失数据的集成处理:在计算中获得自动的基于标签的对齐,并且容易地将乱序数据处理成有序的形式;

  数据集的灵活重塑和枢转;

  智能基于标签的切片,花哨的索引和子集 的大型数据集;

  列可以插入和删除数据结构的大小可变性 ;

  使用强大的组通过引擎聚合或转换数据,允许对数据集进行拆分应用组合操作;

  高性能合并和连接数据集;

软件特色

  轻松处理浮点数据以及非浮点数据中缺失的数据(表示为NaN)

  大小可变性:可以从DataFrame和更高维度的对象中插入和删除列

  自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据

  强大,灵活的分组功能,对数据集执行拆分应用组合操作,用于聚合和转换数据

  使其可以轻松地将其他Python和NumPy数据结构中不规则,不同索引的数据转换为DataFrame对象

  智能基于标签的切片,花哨的索引和子集 的大型数据集

  直观合并和连接数据集

  数据集的灵活重塑和枢转

  轴的分层标签(每个标记可能有多个标签)

  强大的IO工具,用于从平面文件(CSV和分隔),Excel文件,数据库加载数据,以及从超快HDF5格式保存/加载数据

  时间序列特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。

使用方法

  dtype数据IO的关键字

  用于指定解析列类型dtype的read_csv()函数中的关键字参数现在支持'python'引擎(GH14295)。有关详细信息,请参阅io docs。

image.png

  该dtype关键字参数现在还支持在read_fwf()功能解析固定宽度的文本文件,并read_excel()解析Excel文件。

image.png

  Groupby增强

  DataFrame.groupby()作为参数传递的字符串by现在可以引用列名称或索引级别名称(GH5677)

image.png

  更好地支持压缩的URLread_csv

  重构压缩代码(GH12688)。其结果,从在URL中读取dataframes read_csv()或read_table()现在支持额外的压缩方法:xz,bz2,和zip(GH14570)。以前,仅gzip支持压缩。默认情况下,URL和路径的压缩现在都是使用其文件扩展名推断的。此外,支持bz2压缩在python 2 c引擎改进(GH14874)。

image.png

  UInt64支持改进

  Pandas已经显着改进了对涉及无符号或纯非负整数的操作的支持。以前,处理这些整数将导致不适当的舍入或数据类型转换,导致不正确的结果。值得注意的是,UInt64Index已创建了一个新的数字索引(,GH14937)

image.png

  GroupBy对分类

  在以前的版本中,如果对分类序列进行分组时某些类别未显示在数据中,则会失败。(GH13179).groupby(...,sort=False)ValueError

image.png

更新日志

  改进的性能pd.wide_to_long()(GH14779)

  增加性能pd.factorize()通过释放与GIL object时作为字符串DTYPE推断(GH14859)

  改进了使用不规则的DatetimeIndex(或with compat_x=True)(GH15073)绘制的时间序列的性能。

  改进的性能groupby().cummin()和groupby().cummax()(GH15048,GH15109)

  改进的性能和减少的内存索引与MultiIndex(GH15245)

  当在read_sas()没有指定格式的方法中读取缓冲区对象时,推断文件路径字符串而不是缓冲区对象。(GH14947)

  改进rank()对分类数据的性能(GH15498)


热门推荐
推荐教程
猜你喜欢
本类排行