在进行数据分析之前,需要对数据进行清洗和预处理,包括处理缺失值、删除无用的列、转换数据类型等。示例代码如下:
titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)
titanic_data['Sex'] = titanic_data['Sex'].map({'male': 0, 'female': 1})
titanic_data['Embarked'] = titanic_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})
数据可视化
使用Python的matplotlib和seaborn库可以对数据进行可视化,以更好地理解数据集的特征和分布。示例代码如下:
import matplotlib.pyplot as plt
import seaborn as sns
sns.countplot(x='Survived', data=titanic_data)
plt.show()
sns.histplot(x='Age', data=titanic_data, bins=20)
plt.show()
sns.countplot(x='Pclass', hue='Sex', data=titanic_data)
plt.show()
使用Python的scikit-learn库可以建立机器学习模型,并对泰坦尼克号数据进行预测。示例代码如下:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
X = titanic_data.drop(['Survived'], axis=1)
y = titanic_data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
lr_model = LogisticRegression()
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
acc_score = accuracy_score(y_test, y_pred)
print('准确率:', acc_score)
以上是使用Python进行泰坦