Python数据分析代码示例

数据清洗

在进行数据分析之前，通常需要对原始数据进行清洗，即处理缺失值、异常值、重复值等问题。

下面是一个数据清洗的示例代码：

import pandas as pd

# 读取原始数据
data = pd.read_csv('data.csv')

# 处理缺失值
data = data.dropna()

# 处理异常值
data = data[data['value'] < 100]

# 处理重复值
data = data.drop_duplicates()

# 保存清洗后的数据
data.to_csv('clean_data.csv', index=False)

数据可视化

数据可视化是将数据以图形化的方式展示，便于人们理解和分析。Python提供了各种数据可视化库，如Matplotlib、Seaborn、Plotly等。

下面是一个使用Matplotlib进行数据可视化的示例代码：

import matplotlib.pyplot as plt

# 读取数据
data = pd.read_csv('data.csv')

# 绘制折线图
plt.plot(data['date'], data['value'])
plt.xlabel('Date')
plt.ylabel('Value')
plt.title('Value Trend')
plt.show()

数据挖掘

数据挖掘是从大量数据中发现隐藏的模式和关联规则的过程。Python提供了各种数据挖掘算法和工具，如聚类、分类、关联规则挖掘等。

下面是一个使用Scikit-learn进行聚类分析的示例代码：

from sklearn.cluster import KMeans

# 读取数据
data = pd.read_csv('data.csv')

# 提取特征
X = data[['feature1', 'feature2']]

# 聚类分析
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# 可视化聚类结果
plt.scatter(X['feature1'], X['feature2'], c=kmeans.labels_)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Clustering Result')
plt.show()

机器学习

机器学习是一种通过让计算机从数据中学习和改进性能的方法。Python提供了各种机器学习库和算法，如Scikit-learn、TensorFlow等。

下面是一个使用Scikit-learn进行线性回归的示例代码：

from sklearn.linear_model import LinearRegression

# 读取数据
data = pd.read_csv('data.csv')

# 提取特征和标签
X = data[['feature1', 'feature2']]
y = data['label']

# 线性回归
model = LinearRegression()
model.fit(X, y)

# 预测
prediction = model.predict(X)

# 可视化结果
plt.scatter(X, y)
plt.plot(X, prediction, color='red')
plt.xlabel('Feature 1')
plt.ylabel('Label')
plt.title('Linear Regression')
plt.show()

自然语言处理

自然语言处理是利用计算机对人类自然语言进行处理和分析的技术。Python提供了各种自然语言处理库和工具，如NLTK、Spacy等。

下面是一个使用NLTK进行文本情感分析的示例代码：

from nltk.sentiment import SentimentIntensityAnalyzer

# 读取文本
text = 'I am happy'

# 情感分析
sia = SentimentIntensityAnalyzer()
sentiment = sia.polarity_scores(text)

# 打印情感分析结果
print(sentiment)