第四章笔记(外部数据的读取和存储)-数据格和Web数据

发表于 2019-04-29 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、数据库的读取与存储

(一) MySQL8.0安装

1. mysql8.0 msi安装教程

https://blog.csdn.net/qq_42773146/article/details/82414057

安装包版本的参考上述文章

2.MySQL-mysql 8.0.11安装教程

http://www.cnblogs.com/laumians-notes/p/9069498.html

按照上面教程一步步下来即可成功安装，通过Navicat连接如下

(二) 连接数据库

1. 安装pymysql

2. 读取数据库

(1) 通过PyMySQL -> DataFrame

先通过PyMySQL读取数据，得到元组列表，再传给DataFrame构造器

(2) 直接通过read_sql

3. 存储数据库

通过to_sql函数实现DataFrame数据存储为MySQL数据，首先查看to_sql参数

df.to_sql(name, con, flavor=None, schema=None, if_exists=’fail’, index=True, index_label=None, chunksize=None, dtype = None)

其中

name参数存储的表名

con为连接的数据库

if_exists参数用于判断是否有重复表名，其中fail表示如果有重复表名，就不存；replace表示替换重复表名；append表示在该表中继续插入数据。

新版pandas中，con参数不能使用pymysql连接数据库

二、Web数据的读取

(一) 读取Html表格

利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

http://www.cnblogs.com/sanduzxcvbnm/p/10250222.html

(二) 网络爬虫

并非所有的网页数据存在HTML表格中，这就需要通过网络爬虫获取所有数据。

以酷狗榜单中TOP500的音乐信息为例

http://www.kugou.com/yy/rank/home/1-8888.html

第四章笔记(外部数据的读取和存储)-文本JsonExcel

发表于 2019-04-28 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、文本数据的读取与存储

(一) CSV文件的读取

1. csv创建

可以通过type方法查看数据，type适用于Windows，Unix使用!cat

2. csv读取

创建的是标准的csv，可以使用read_csv读取

如果csv路径中有中文，需要加open函数

对于csv，也可以使用read_table读取，指定分隔符即可

但实际中格式并不会如此的规整

3. csv规整

(1) 指定列作为索引

默认情况下，读取的DataFrame行索引是从0开始的计数，可以通过index_col参数指定列为行索引如

如果希望多个列做成一个层次化索引，传入列编号或者列名组成的列表即可。

(2) 标题行设置

有些情况下，csv文件没有标题行，使用默认读取，会指定第一行为标题行，这是不符合实际的。

一种是通过header参数分配默认的标题行，

一种是通过names参数给其指定列名。

‘’

(3) 自定义读取

a. 跳过一些行

由于数据原因，有时可能只需要选择读取部分行或者列，通过skiprows参数跳过一些行

b. 读取部分行

通过nrows，可以选择只读取部分数据，从0开始

如果只为了研究部分列数据，通过usecols进行部分列的选择

c. 逐块读取

当处理很大文件时候，需要对文件逐块读取，首先通过info查看生还者数据，通过chunksize，即可逐步读取文件，返回的是TextFileReader。通过迭代，可对Sex进行计数。

(二) TXT文件的读取

TXT文件使用的分隔符可能并不是逗号，这是创建一个分隔符为?的txt文件

现实情况中，有些TXT文件并没有固定的分隔符，而用一些数量不定的空白符进行分隔，

这种情况下，也可以手动处理，但数量大，耗时，可通过表达式来处理。

(三) 文本数据的存储

对数据进行处理和分析后，通常会把数据存储起来。

DataFrame的to_csv，把数据存到以逗号为分隔的csv文件，

也可以通过sep指定分隔符，这种情况下会存储行和列索引，通过index和header分别处理行和列索引

二、JSON和Excel数据的读取和存储

(一) JSON数据的读取与存储

JSON(javascript object notation)数据是一种轻量级的数据交换格式，因其简洁和清晰的层次结构，成为理想的数据交换语言。

官方网站：

http://www.json.org/

1. 使用json读取

通过python的第三方库json，通过json.loads读取数据，再将数据传入DataFrame构造器，完成JSON数据的读取。

2. 使用pandas的read_json

另一种是直接通过pandas的read_json

3. 存储

最后使用to_json对DataFrame数据进行存储

(二) Excel数据的读取与存储

Excel表格数据也是工作中常用的一种数据，读者应该对其不陌生，可以通过DataFrame的read_excel和to_excel完成存取。

read_excel读取数据，可通过参数sheetname指定读取的工作簿

to_excel函数则是将DataFrame存为Excel数据

第三章笔记(pandas入门和实战)-pandas可视化

发表于 2019-04-20 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、pandas可视化

(一) 线形图

线形图通常用于描绘两组数据之间的趋势，

例如销售行中月份与销量之间的趋势，金融行中股票收盘价与时间序列之间的走势

Series和DataFrame都有绘制各类图表的plot方法，默认就是线形图

Python关于%matplotlib inline

https://www.jianshu.com/p/2dda5bb8ce7d

我在做一个比赛需要使用到LSTM模型对时间序列进行预测，然后在github代码中经常会看到这样的代码：

import numpy
import matplotlib.pyplot as plt
from pandas import read_csv
import math
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error
%matplotlib inline

其中最后一句%matplotlib inline比较奇怪，而且无论你是用哪个python的IDE如spyder或者pycharm,这个地方都会报错，显示是invalid syntax（无效语法）。那为什么代码里面还是会有这一句呢？原来是这样的。
%matplotlib作用

是在使用jupyter notebook 或者 jupyter qtconsole的时候，才会经常用到%matplotlib，也就是说那一份代码可能就是别人使用jupyter notebook 或者 jupyter qtconsole进行编辑的。关于jupyter notebook是什么，可以参考这个链接：[Jupyter Notebook介绍、安装及使用教程][1]
而%matplotlib具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。

而我们在spyder或者pycharm实际运行代码的时候，可以直接注释掉这一句，也是可以运行成功的。如下示例：

1 2	fig = plt.figure(facecolor='white') ax = fig.add_subplot(111)

plot运行截图

如图所示，生成了一个带坐标轴的figure对象，并且画布颜色是白色的。

(二) 柱状图

柱壮图，常用于描绘各类别别之间的关系。

例如，班级中男生和女生之间的分布情况，某零售店各商品的购买数量分布情况。

通过pandas绘制柱状图很简单，只需要在plot函数中加入kind=’bar’，如果类别较多，可绘制水平柱状图kind=’barh’

设置plot函数的stacked参数，可以绘制堆积柱状图，alpha可以设置颜色透明度

(三) 直方图和密度图

直方图用于频率分布，y轴可为数值或者比率，直方图在统计分析中是经常使用的。

绘制数据的直方图，可以看出其大概分布规律，例如，某班级的身高情况一般是服从正态分布，即高个子和矮个子的人较少，大部分都是在平均身高左右。

可通过hist方法绘制直方图，设置grid参数即可在图表中添加网格，bins参数是将值分为多少段，默认是10

核密度估计(Kernel Density Estimate)是对真实密度的估计，其过程是将数据的分布近似为一组核（如正态分布）。通过plot函数的kind=’kde’可进行绘制。

(四) 散点图

散点图主要用来表现数据之间的规律。例如，身高和体重之间的规律。

二、小费数据集

数据分析的流程，通常分为5步。

(1) 收集数据。在这一步中，需要对收集的数据有一定的认知，对各字段的含义和背景知识都要有着足够的理解。

(2) 定义问题。根据各自的行业和业务知识，对数据定义多个待解决的问题。

(3) 数据清洗与整理。由于各种问题，获取的数据不够干净，需要通过各种手段对数据进行清洗与整理，以便得到准确的分析结果。

(4) 数据探索。通过可视化等手段，对数据进行分析和探索，得出结论。

(5) 数据展示。这部分用于输出，或撰写数据分析报告，或汇报给上级，或绘制PPT。

(一) 数据来源

小费数据来源于Python第三方库seaborn(用于绘图)中自带的数据，加载该数据集。

head函数返回前5条，也可指定返回数据行数。

众所周知，在西方国家的服务行业中，顾客会给与服务员一定金额的小费。该小费数据为餐饮行业收集的数据，total_bill列为消费总金额，tip列为小费金额，sex为顾客性别，smoker为顾客是否抽烟，day为消费的星期，time为聚餐的时间段，size为聚餐人数。

(二) 定义问题

本次分析中，围绕小费数据集提出几个问题：

小费金额与消费总金额是否存在相关性？

性别，是否吸烟，星期几，中晚餐，聚餐人数和小费金额是否有一定的关联？

小费金额占消费总金额的百分比服从正态分布？

(三) 数据清洗

首先对数据进行简单描述，看是否缺失或者异常值

通过统计看出244条数据，但看不出是否有缺失值，通过打印数据的info可以看出每列数据类型和缺失情况。

(四) 数据探索

1. 小费金额和消费总金额

可以看出小费金额和消费总额存在着正相关的关系，即消费的金额越多，给的小费也就越多，这是比较合理的

2. 小费金额和性别

可以看出，女性小费金额小于男性小费金额

3. 小费金额和星期几

可以看出，星期六，日的小费比周四，周五的高

4. 小费百分比的分布

这里的消费总金额为小费的金额和聚餐所花谓的金额total_bill

第三章笔记(pandas入门和实战)

发表于 2019-04-14 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、pandas

官方网站：

http://pandas.pydata.org/

二、pandas数据结构

(一) 创建Series数据

Series数据结构类似于一维数组，但它是由一组数据（各种Numpy数据类型）和一组对应的索引组成。

Series数据：索引在左边，值在右边。如果没有指定一组数据作为索引的话，Series数据会以0到N-1作为索引，也可以通过指定索引的方式来创建。

也可以通过字典数据来创建Series，由于字典是无序的，返回的Series也是无序的，可以通过index指定索引的排列顺序

(二) 创建DataFrame数据

DataFrame为表格型数据，类似Excel，有行索引和列索引，行索引类似于Excel中的每行的编号（没有指定行索引的情况下），列索引类似于Excel中的列名（通常叫字段）。

由于字典是无序的，因此可以通过columns指定列索引的排列顺序。

也可以使用嵌套字典创建。

三、pandas索引操作

(一) 重新索引

索引对象无法修改，这里讲的不是索引重新命名，而是对索引重新排序，如果不存在，引入缺失值。

Series重新排序后的索引

如果需要对插入的缺失值填充，通过method，参数值为ffill或pad时向前填充，参数值为bfill或backfill时为向后填充

DataFrame，行和列都是可以重新索引的，重新索引列要使用columns关键字

(二) 更换索引

在DataFrame中，如果不希望使用默认行索引的话，可在创建的时候通过index来设置行索引，有时我们希望将列数据作为行索引，通过set_index，相反的是reset_index

Excel表格，排序之后，行索引并不会发生改变（依旧是从1开始），但DataFrame数据，排序之后行索引会改变

这时如果要取后两位的数据，非常麻烦，要单独记住，可通过drop参数删除原索引

(三) 索引和选取

(1) Series

Series数据的选择比较简单，使用方法类似于Python的列表，不仅可以通过0到N-1来进行索引，同时也可以通过设置好的索引标签来进行索引。

切片运算时与Python列表不同，如果是利用索引标签切片，其尾端是被包含的

(2) DataFrame

1. 选取列

通过列索引标签或以属性方式可以单独获取列数据，返回Series数据

可通过两个中括号，可以获取多个列的数据

2. 选取行

通过行索引标签或行索引位置（0到N-1）的切片形式可选取行数据

如果想要获取单独的几行，通过loc和iloc方法可以实现，loc方法是按行索引标签来选取数据，iloc是按行索引位置选取数据

3. 选取行和列

如果只对部分行和列进行操作，通过ix方法，除了可以选取部分行和列外，也可以单独选取单独的行或者列

http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

对于ix如何替换处理

4. 布尔选择

(四) 操作行和列

(1) 增加

增加一行数据，通过append

新加一列，通过传入列表或者数组结构进行赋值

(2) 删除

如果王五转学，通过drop方法删除指定轴上的信息

(3) 改

这里改的是行和列索引标签的修改，通过 rename，完成由于某些原因导致的标签录入错误的问题

四、pandas数据运算

(一) 算术运算

pandas的数据对象在进行算术运算时，如果有相同的索引对则进行算术运算，如果没有则会引入缺失值，这就是数据对齐

对于DataFrame数据而言，对齐操作会同时发生在行和列上

DataFrame和Series数据在进行运算时，先通过Series的索引匹配到相应的DataFrame列索引上，然后没行向下运算（广播）

(二) 函数应用和映射

数据分析时，常常会对数据进行复杂的运算，这时需要定义函数，定义好的函数可以应用到pandas数据中，其中有三种方法：

map函数，将函数套用在Series的每个元素中

apply函数，将函数套用到DataFrame的行与列上

applymap函数，将函数套用到DataFrame的每个元素

(三) 排序

Series中，通过sort_index可对索引进行排序，默认情况为升序，通过ascending可指定升降

通过sort_values对值进行排序

DataFrame数据，通过指定轴方向，使用sort_index可对行或者列索引排序，要根据列进行排序，可通过sort_values函数，把列名传by参数

(四) 汇总与统计

DataFrame数据中，通过sum函数可以对每列进行求和汇总，指定轴方向，可进行按行汇总

describe方法可对每个数值类型进行统计，经常用于数据的初步观察时使用

(五) 唯一值和值计数

Series中，通过unique函数可以获取不重复的数组

通过value_counts方法可统计每个值出现的次数

五、层次化索引

层次化索引，就是轴上有多个级别索引. 索引对象为MultiIndex对象

通过swaplevel方法可以对层次化索引进行重排。

对层次化索引的pandas数据进行汇总统计时，可以通过level参数指定在某层次上进行汇总统计

第二章笔记(Numpy入门和实战)

发表于 2019-03-31 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、Numpy

官方网站：

http://www.numpy.org/

快速教程：

https://www.numpy.org/devdocs/user/quickstart.html

(一)Numpy是什么

一个用Python实现的科学计算，包括：

1、一个强大的N维数组对象Array；

2、比较成熟的（广播）函数库；

3、用于整合C/C++和Fortran代码的工具包；

4、实用的线性代数、傅里叶变换和随机数生成函数。

numpy和稀疏矩阵运算包scipy配合使用更加方便。

NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用，以及核心的科学计算组织如：Lawrence Livermore，NASA用其处理一些本来使用C++，Fortran或Matlab等所做的任务。

(二)ndarray

NumPy提供了一个N维数组类型ndarray，它描述了相同类型的“items”的集合。
ndarray到底跟原生python列表的区别：

从图中我们可以看出ndarray在存储数据的时候，数据与数据的地址都是连续的，这样就给使得批量操作数组元素时速度更快。
这是因为ndarray中的所有元素的类型都是相同的，而Python列表中的元素类型是任意的，所以ndarray在存储元素时内存可以连续，而python原生list就只能通过寻址方式找到下一个元素，这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list，但在科学计算中，Numpy的ndarray就可以省掉很多循环语句，代码使用方面比Python原生list简单的多。
numpy内置了并行运算功能，当系统有多个核心时，做某种计算时，numpy会自动做并行计算。
Numpy底层使用C语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受Python解释器的限制，效率远高于纯Python代码。

(三)ndarray结构

NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组。

ndarray 中的每个元素在内存中都有相同存储大小的区域。

ndarray 内部由以下内容组成：

一个指向数据（内存或内存映射文件中的一块数据）的指针。
数据类型或 dtype，描述在数组中的固定大小值的格子。
一个表示数组形状（shape）的元组，表示各维度大小的元组。
一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要”跨过”的字节数。

ndarray 的内部结构:

跨度可以是负数，这样会使数组在内存中后向移动，切片中 obj[::-1] 或 obj[:,::-1] 就是如此。

(四) 参考教程

http://www.runoob.com/numpy/numpy-dtype.html

https://blog.csdn.net/a373595475/article/details/79580734

二、ndarray多维数组

(一)创建

创建一个 ndarray 只需调用 NumPy 的 array 函数即可：

1	numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)

对于多维数组的创建，使用嵌套序列数据即可完成。

另外，使用其他函数也能创建一些特殊的数组，zeros，ones，empty，arange，ones_like

(二)对象属性

(三)数据类型

numpy 支持的数据类型比 Python 内置的类型要多很多，基本上可以和 C 语言的数据类型对应上，其中部分类型对应为 Python 内置的类型。下表列举了常用 NumPy 基本类型。

(四)数组变换

https://www.jb51.net/article/144961.htm

http://www.runoob.com/numpy/numpy-array-manipulation.html

reshape 不改变数据的条件下修改形状

ravel 返回展开数组

flatten 返回一份数组拷贝，对拷贝所做的修改不会影响原始数组

concatenate 连接沿现有轴的数组序列

split 将一个数组分割为多个子数组

transpose 转置可以对数组进行重置，返回的是源数据的视图（不会进行任何复制操作）

swapaxes 对换数组的两个轴

(五)随机函数

https://blog.csdn.net/jinxiaonian11/article/details/53143141

在数据分析中，数据的获取是第一步，numpy.random 模块提供了非常全的自动产生数据API，是学习数据分析的第一步。
总体来说，numpy.random模块分为四个部分，对应四种功能：

简单随机数：产生简单的随机数据，可以是任何维度
排列：将所给对象随机排列
分布：产生指定分布的数据，如高斯分布等
生成器：种随机数种子，根据同一种子产生的随机数是相同的

permutaion,shuffle

三、数组的索引和切片

http://www.runoob.com/numpy/numpy-ndexing-and-slicing.html

http://www.runoob.com/numpy/numpy-advanced-indexing.html

https://www.cnblogs.com/woaixuexi9999/p/9230205.html

(一)索引

ndarray对象的内容可以通过索引或切片来访问和修改，与 Python 中 list 的切片操作一样。

ndarray 数组可以基于 0 - n 的下标进行索引，切片对象可以通过内置的 slice 函数，并设置 start, stop 及 step 参数进行，从原数组中切割出一个新数组。

(二)切片

(三)布尔型索引

bool型数组可以用于数组索引，前提是bool型数组的长度和被索引数组的高维维度一致

(四)花式索引

花式索引指的是利用整数数组进行索引。

花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。对于使用一维整型数组作为索引，如果目标是一维数组，那么索引的结果就是对应位置的元素；如果目标是二维数组，那么就是对应下标的行。

花式索引跟切片不一样，它总是将数据复制到新数组中。

传入多个索引数组（要使用np.ix_）

https://docs.scipy.org/doc/numpy/reference/generated/numpy.ix_.html

最后一个x[np.ix_([1,5,7,2],[0,3,1,2])] 代表

取x中的

第1行0列，3列，1列，2列

第5行0列，3列，1列，2列

第7行0列，3列，1列，2列

第2行0列，3列，1列，2列

四、数组运算

https://www.cnblogs.com/luhuan/p/7928407.html

(一)通用函数

通用函数是一种对数组中的数据执行元素级运算的函数

(二)条件逻辑运算

https://www.cnblogs.com/anner-nie/p/8544203.html

(三) 统计运算

cumsum

https://blog.csdn.net/lzh_12345/article/details/79848100

cumsum函数定义：

cumsum(a, axis=None, dtype=None, out=None)
a.cumsum(axis=None, dtype=None, out=None)
返回：沿着指定轴的元素累加和所组成的数组，其形状应与输入数组a一致

其中cumsum函数的参数：

a:数组
axis:轴索引,整型，若a为n维数组，则axis的取值范围为[0,n-1]
dtype:返回结果的数据类型，若不指定，则默认与a一致。
out：数据类型为数组。用来放置结果的替代输出数组，它必须具有与输出结果具有相同的形状和缓冲长度

(四)布尔型数组运算

对于布尔型数组，期布尔值会被强制转化1(True)和0(False)

(五)排序

通过sort方法排序，多维数组，通过指定轴方向

https://blog.csdn.net/Haiyang_Duan/article/details/79221458

(六)集合运算

https://blog.csdn.net/tcy23456/article/details/83958753

(七)集合运算

numpy.linalg模块包含线性代数的函数。使用这个模块，可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。

五、数组的存储

np.savetext和loadtext完成存和取

第一章笔记(Python环境搭建与使用)-Anaconda

发表于 2019-03-24 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

《从零开始学Python数据分析》这本书，粗步看了下，当作入门书籍还可以，当然，需要有一定的相应编程基础，大部分会购买的想必都是，其中有些点也是一笔带过，不甚清楚，自己本着从零开始，一边学习，一边搜索相关资料，慢慢理解，比如有些不常见的知识点等，努力吃透Python数据分析入门。后面自己会慢慢的记录学习的过程和笔记，方便自己回溯和思考。

一、conda

conda官方网站：

https://conda.io/docs/

miniconda

https://conda.io/miniconda.html

(一)conda是什么

conda是一个包，依赖和环境管理工具，适用于多种语言，如: Python, R, Scala, Java, Javascript, C/ C++, FORTRAN

(二)conda安装

conda默认随miniconda或anaconda发行，因此要安装conda，只需要安装miniconda或anconda即可。

如果通过anaconda安装, 国内直接从官网下载安装包会比较慢，可以通过清华大学的源下载。

Anaconda发行版会预装很多pydata生态圈里的软件，而Miniconda是最小的conda安装环境，一个干净的conda环境。但是，conda和Anaconda没有必然关系，你可以不安装Anaconda的同时，使用conda安装和管理软件。

Anaconda的安装比较简单，一路NEXT，记得选添加到系统环境变量即可。

(三)conda镜像源

在使用anaconda中附带的conda安装软件包时，为了加快速度，也可以为conda设置使用清华的源，具体使用可以参考

https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

添加清华镜像源

1
2
3

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

执行安装

若要使用官方仓库，删除 ~/.condarc 目录。

(四) 常用命令

1. 查看当前环境信息

1
2
3

conda info -e
conda info --envs
conda env list

2. 环境管理

conda info -e 环境信息
conda create -n data-analysis python=3 anaconda 创建环境data-analysis，并指定python版本，并具有Anaconda所有包
source activate data-analysis 激活环境
source deactivate data-analysis 关闭环境
conda remove --name data-analysis --all 删除环境
python -version 检查当前环境python版本
conda --version 检查当前conda版本

3. 包管理

conda list 列出所有安装的包的信息
conda search beautiful-soup 查询包
conda install -n data-analysis beautiful-soup 安装包，并指定安装环境，如果没有-n data-analysis，则安装到当前环境
conda update beautiful-soup 升级包
conda remove -n data-analysis beautiful-soup 移除包

conda默认从https://repo.continuum.io/pkgs/下载安装包，当无法找到需要的安装包时，可以通过Anaconda.org安装包, 在http://anaconda.org可以搜索可用的包并在包详情页面获取下载命令,如:

当无法使用conda安装，也无法从Anaconda.org下载到需要的安装包时，可以通过pip命令安装

4. Anaconda和conda管理

1
2
3

conda info 查询conda信息
conda update conda 升级conda
conda update anaconda 升级anaconda

(五) 关于conda和anaconda不可不知的误解和事实——conda必知必会

转自：

https://blog.csdn.net/qsir/article/details/79354734

2012年发布的跨平台包管理软件conda，是在数据分析界和Numpy和Scipy一样受欢迎的python工具。但是普通程序员平时只是会使用conda安装一些第三方包，对它从哪里来，它是什么，和它要到哪里去所知甚少。今天我们就要讲一下关于conda和anaconda不可不知的误解和事实——conda必知必会的那些事实。

误解 #1：Conda是python的一个发行版，不是一个包管理器。

事实: Conda是一个包管理器；Anaconda才是一个python发行版。虽然conda是用Anaconda打包的，但是它们两个的目标是完全不同的。

软件发行版是在系统上提前编译和配置好的软件包集合，装好了后就可以直接用。包管理器是自动化软件安装，更新，卸载的一种工具。Conda，有命令”conda install”, “conda update”, “conda remove”, 所以很明显， conda是包管理器。

再来说说， Anaconda 和 Miniconda. Anaconda发行版会预装很多pydata生态圈里的软件，而Miniconda是最小的conda安装环境，一个干净的conda环境。

但是，conda和Anaconda没有必然关系，你可以不安装Anaconda的同时，使用conda安装和管理软件。

误解 #2: Conda是一个python包管理器

事实：Conda是一个通用的包管理器，当初设计来管理任何语言的包。所以用来管理python包当然也是绰绰有余。

$ conda search –canonical | grep -v ‘py\d\d’

这句命令可以帮你找出不是 pip和virtualenv可以管理的python包，而conda可以管理

误解 #3: Conda 和 pip 是直接竞争关系

事实：Conda 和 pip 目标并不相同，只有小部分子集有交集有竞争关系：比如python包的安装和环境隔离。

一句话就可以看出区别：

pip可以允许你在任何环境中安装python包，而conda允许你在conda环境中安装任何语言包（包括c语言或者python）。

如果我们只是关注python包安装，conda和pip也是为不同用户和不同目标定制的。如果你想在一个已有系统快速管理python包，那你应该选择pip，因为conda应该在conda环境中使用，而pip鼓励在任何环境中使用。而如果，你想要让许多依赖库一起很好地工作（比如数据分析中的Numpy，scipy，Matplotlib等等）那你就应该使用conda，conda很好地整合了包之间的互相依赖。

误解 #4: 使用conda首先是不负责任并且会引起分歧的

事实：Conda作者多年来用python标准创造conda，只有在非常清晰合理的时候，才使用其他工具。

你可能会问，我相信conda是遵循python标准的，但是它们为什么偏偏要撇开pip自己去造一套包管理器呢？为什么他们不直接去pip团队贡献想法呢？

事实上，一开始conda那伙人是想在pip社区贡献想法和代码的，但是像numpy，scipy这样对底层c库有复杂依赖的包管理需求，真的不多，所以社区不接受这样的不常有的需求。所以，他们只能自己去造conda包管理器了。

误解 #5: conda不能和virtualenv一起使用，所以它对我的工作没用

事实上：你可以在virtualenv环境下安装conda，但是最好用conda自己的环境工具，这样会和pip有更好的兼容性

你可以在virtualenv里面安装conda：

$ virtualenv test_conda

$ source test_conda/bin/activate

$ pip install conda

$ conda install numpy

也可以在conda中造虚拟环境：

1 2	$ conda create -n yourenvname python=x.x anaconda $ source activate yourenvname

误解 #6: 现在pip用wheels了，conda没什么用了

事实：wheels只是解决了conda试图克服的许多困难中的一个， conda二进制编排还是有很多wheels没有的优势

wheels和conda都解决了预编译的代码安装问题（不仅仅是源代码安装）。但是wheel没有conda的依赖处理能力，wheels只能跟踪python代码的依赖关系，conda可以跟踪很多c代码的依赖关系，这为许多用numpy和scipy做科学计算优化的科学家省了不少心。

误解 #7: conda不是开源的；它是被盈利公司掌控的，如果有一天公司想收费了，那你就得付钱

Reality: conda (the package manager and build system) is 100% open-source, and Anaconda (the distribution) is nearly there as well.

Anaconda和conda都是standard BSD license开源标准。如果你还不放心，用pip install conda吧，这是完全开源的。

误解 #8: Conda 软件包本身都是闭源的吧？

事实: 虽然conda默认渠道没有完全开源，但是有一个社区牵头的conda-forge，它会推动conda的包和发行版完全开源。

误解 #9: 但是，如果Continuum Analytics公司倒闭，conda就不会存活了吧？

事实: conda没有和Continuum Analytics公司有很多牵扯；公司为社区免费提供支持服务，所有软件都有负责人，而不是公司全权负责。

误解 #10: 每个人都应该抛弃(conda | pip)去用(pip | conda) ！

事实： pip 和 conda 是为不同目的存在的，我们应该更加关注怎么同时用好这两个工具，而不是只用一个

参考文献：

https://jakevdp.github.io/blog/2016/08/25/conda-myths-and-misconceptions/

(六) Python虚拟环境之Anaconda&virtualenv

转自：

https://blog.csdn.net/hohaizx/article/details/78375238

Python好用易学，但想用好Python却不容易，特别是不同Python版本和包管理着实让人头疼。为了解决这些问题，不少Python发行版，比如WinPython、Anaconda等，将python和许多常用的package打包，方便pythoners直接使用。此外，还有virtualenv、pyenv等第三方包可以用于创建管理虚拟环境。本人最近刚好接触了Anaconda和virtualenv，所以在此做一个简要介绍。

1、Anaconda Anaconda作为Python的一个发行版，因此下载安装非常简单，点击此处即可进入官网下载对应操作系统的版本，然后直接安装即可。本人下载安装了windows版本的Anaconda。Anaconda提供了一个导航页面(Anaconda Navigator)和管理控制台(Anaconda Prompt)方便用户操作。

我们可以通过图形化界面方便简单的完成虚拟环境创建和包管理，也可以通过控制台命令完成。Anaconda提供了一个强大的conda工具，用以包管理和环境管理，包管理与pip类似；环境管理则与许多第三方虚拟环境管理包工具类似。这里主要介绍利用控制台conda工具管理虚拟环境。

创建虚拟环境

conda create –name test python=3.6

通过以上命令就成功创建了名为test的python3.6虚拟环境，这里python版本可以随意指定，不需要是本机安装了的python版本，因为Anaconda会自动联网下载对应的python版本。这个环境完全与本机已经安装的python环境隔离，接下来我们就可以激活进入这个环境，进行第三方包的安装等。

激活环境

activate test # windows

退出当前环境也同样简单

退出当前环境

deactivate # windows

删除创建的虚拟环境

删除虚拟环境

conda remove –name test –all

2、virtualenv virtualenv是一款轻量级第三方虚拟环境管理工具，不像Anaconda大小达上百M，virtualenv大小只有10M左右，通过pip就可以轻松安装。下面介绍virtualenv的安装使用。

安装virtualenv

pip install virtualenv

创建虚拟环境

virtualenv test

这里有几点需要注意的地方 1、virtualenv创建出来的虚拟环境在当前目录下，例如上面的E:\virtualenv 2、不指定python版本将使用path路径中的python版本，指定python版本使用如下命令，

指定python版本

virtualenv -p python安装路径虚拟环境名

因此virtualenv只能使用本机存在的python版本创建虚拟环境，这一点与Anaconda不同。 3、不需要加–no-site-packages，在网上百度说在创建命令中加入–no-site-packages将不会读取系统包。经过实验，发现最新的virtualenv不加–no-site-packages也不会读取系统包。接下来进入虚拟环境

进入虚拟环境

E:\virtualenv\test\Scripts\activate.bat # windows ~\virtualenv\test\bin\source activate # linux

windows需要进入虚拟环境目录下的Scripts目录，然后运行activate.bat。linux进入虚拟环境下的bin目录，然后source activate。之后就可以安装各种第三方包了。

退出虚拟环境

deactivate.bat # windows deactivate # linux

使用virtualenv创建虚拟环境后，每次进入虚拟环境都要进入虚拟环境目录，非常的繁琐，因此就有人开发了virtualenvwrapper对virtualenv进行了封装，方便操作。

安装virtualenvwrapper

pip install virtualenvwrapper-win # wiondows pip install virtualenvwrapper # linux

windows上安装virtualenvwrapper时一定要加上-win后缀，否则下载安装的是.sh脚本，不是.bat格式，输入workon命令时出现“workon不是内部命令”错误。接下来配置WORKON_HOME环境变量，指定虚拟环境创建目录。

然后重启控制台，使环境变量生效。在linux下需要配置环境变量，首先找到virtualenvwrapper.sh文件

linux查找virtualenvwrapper.sh文件

find / -name virtualenvwrapper.sh

找到该文件后，记住路径。然后修改当前用户的bash shell的环境变量。打开vim ~/.bashrc

export WORKON_HOME=虚拟环境存放目录 source /usr/bin/virtualenvwrapper.sh

然后让环境变量生效source ~/.bashrc

virtualenvwrapper创建虚拟环境

mkvirtualenv test2

这时创建的虚拟环境就会自动存放到WORKON_HOME对应的目录中，并且自动进入创建好的虚拟环境。

进入虚拟环境

workon test2

同样可以指定python版本

指定Python版本

mkvirtualenv –python=python版本的python.exe路径虚拟环境名称

退出虚拟环境

deactivate

第一章笔记(Python环境搭建与使用)-Jupyter Notebook

发表于 2019-03-24 | 更新于 2019-06-25 | 分类于从零开始学Python数据分析

一、Jupyter Notebook

官方网站：

http://jupyter.org/

参考文章：

左手代码，右手写作：你必须会的Jupyter Notebook

https://www.jianshu.com/p/86117613b7a6

(一)Jupyter Notebook是什么

在介绍 Jupyter Notebook 之前，让我们先来看一个概念：文学编程 ( Literate programming )，这是由 Donald Knuth 提出的编程方法。传统的结构化编程，人们需要按计算机的逻辑顺序来编写代码；与此相反，文学编程则可以让人们按照自己的思维逻辑来开发程序。简单来说，文学编程的读者不是机器，而是人。我们从写出让机器读懂的代码，过渡到向人们解说如何让机器实现我们的想法，其中除了代码，更多的是叙述性的文字、图表等内容。这么一看，这不正是数据分析人员所需要的编码风格么？不仅要当好一个程序员，还得当好一个作家。那么 Jupyter Notebook 就是不可或缺的一款集编程和写作于一体的效率工具。

(二)历史传承

也许说到 Jupyter 你会觉得陌生，但想必你或多或少听过鼎鼎大名的 IPython。其实Jupyter 脱胎于 IPython 项目，IPython 顾名思义，是专注于 Python 的项目，但随着项目发展壮大，已经不仅仅局限于 Python 这一种编程语言了。Jupyter 的名字就很好地释义了这一发展过程，它是 Julia、Python 以及 R 语言的组合，字形相近于木星（Jupiter），而且现在支持的语言也远超这三种了

(三) 优点

以下列举了 Jupyter Notebook 的众多优点：

极其适合数据分析想象一下如下混乱的场景：你在终端中运行程序，可视化结果却显示在另一个窗口中，包含函数和类的脚本存在其他文档中，更可恶的是你还需另外写一份说明文档来解释程序如何执行以及结果如何。此时 Jupyter Notebook 从天而降，将所有内容收归一处，你是不是顿觉灵台清明，思路更加清晰了呢？
支持多语言也许你习惯使用 R 语言来做数据分析，或者是想用学术界常用的 MATLAB 和 Mathematica，这些都不成问题，只要安装相对应的核（kernel）即可。这里列出了 Jupyter 支持的所有语言，供您参考。
分享便捷支持以网页的形式分享，GitHub 中天然支持 Notebook 展示，也可以通过 nbviewer 分享你的文档。当然也支持导出成 HTML、Markdown 、PDF 等多种格式的文档。
远程运行在任何地点都可以通过网络链接远程服务器来实现运算，这里给出一个远程运行的例子，可以体验一下 Jupyter Notebook。
交互式展现不仅可以输出图片、视频、数学公式，甚至可以呈现一些互动的可视化内容，比如可以缩放的地图或者是可以旋转的三维模型。这就需要交互式插件（Interactive widgets）来支持，更多内容请参考这里。

(四) 安装

对于初学者，最简单的方法是安装 Anaconda，因为它自带了 Jupyter Notebook。

对于有经验的同学，自然使用命令行最为便捷。

如果在 conda 环境中，可以使用如下命令安装：

1	conda install jupyter notebook

或者直接通过 pip 安装：

1	pip install jupyter notebook

更多的安装说明请参考官网。

(五) 运行

如果使用 Anaconda，可以在其 Navigator 图形界面中点击打开 Notebook。但是最快捷的方法还是在命令行中输入：

1	jupyter notebook

此时你的 Web 浏览器被自动打开，显示文件目录。通过点击右上角的 new 创建新文档。

(六) 关闭

关闭running的notebook

通过在服务器主页上选中 notebook 旁边的复选框，然后点击“Shutdown”（关闭），你就可以关闭各个 notebook。但是，在这样做之前，请确保你保存了工作！否则，在你上次保存后所做的任何更改都会丢失。下次运行 notebook 时，你还需要重新运行代码。

关闭整个服务器

通过在终端中按两次 Ctrl + C，可以关闭整个服务器。再次提醒，这会立即关闭所有运行中的 notebook，因此，请确保你保存了工作！

(七)保存

工具栏包含了保存按钮，但 notebook 也会定期自动保存。标题右侧会注明最近一次的保存。你可以使用保存按钮手动进行保存，也可以按键盘上的 Esc，然后按 s。按 Esc 键会变为命令模式，而 s 是“保存”的快捷键。

(八)界面

Notebook 文档是由一系列单元（Cell）构成，主要有两种形式的单元：

代码单元：这里是你编写代码的地方，通过按 Shift + Enter 运行代码，其结果显示在本单元下方。代码单元左边有 In [1]: 这样的序列标记，方便人们查看代码的执行次序。
Markdown 单元：在这里对文本进行编辑，采用 markdown 的语法规范，可以设置文本格式、插入链接、图片甚至数学公式。同样使用 Shift + Enter 运行 markdown 单元来显示格式化的文本。

Hello World

发表于 2018-12-09 | 更新于 2019-03-23 | 分类于默认

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1	$ hexo new "My New Post"

More info: Writing

Run server

1	$ hexo server

More info: Server

Generate static files

1	$ hexo generate

More info: Generating

Deploy to remote sites

1	$ hexo deploy

More info: Deployment

不二码匠

捣鼓的码库