相关文章推荐
健壮的墨镜  ·  Qt ...·  1 月前    · 
老实的弓箭  ·  PyTorch 2.2 ...·  5 天前    · 
冷冷的投影仪  ·  Secure an ASP.NET ...·  8 月前    · 
大鼻子的伤疤  ·  御载 MacPorts ...·  1 年前    · 
重感情的丝瓜  ·  java ...·  1 年前    · 

在进行数据分析之前,需要对数据进行清洗和预处理,包括处理缺失值、删除无用的列、转换数据类型等。示例代码如下:

# 删除无用的列
titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
# 处理缺失值
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)
# 转换数据类型
titanic_data['Sex'] = titanic_data['Sex'].map({'male': 0, 'female': 1})
titanic_data['Embarked'] = titanic_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})
  • 数据可视化
  • 使用Python的matplotlib和seaborn库可以对数据进行可视化,以更好地理解数据集的特征和分布。示例代码如下:

    import matplotlib.pyplot as plt
    import seaborn as sns
    # 绘制生还者和死亡者的柱状图
    sns.countplot(x='Survived', data=titanic_data)
    plt.show()
    # 绘制年龄分布直方图
    sns.histplot(x='Age', data=titanic_data, bins=20)
    plt.show()
    # 绘制性别和船舱等级的堆叠柱状图
    sns.countplot(x='Pclass', hue='Sex', data=titanic_data)
    plt.show()
    

    使用Python的scikit-learn库可以建立机器学习模型,并对泰坦尼克号数据进行预测。示例代码如下:

    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LogisticRegression
    from sklearn.metrics import accuracy_score
    # 划分训练集和测试集
    X = titanic_data.drop(['Survived'], axis=1)
    y = titanic_data['Survived']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    # 建立逻辑回归模型
    lr_model = LogisticRegression()
    lr_model.fit(X_train, y_train)
    # 预测测试集结果
    y_pred = lr_model.predict(X_test)
    # 计算准确率
    acc_score = accuracy_score(y_test, y_pred)
    print('准确率:', acc_score)
    

    以上是使用Python进行泰坦

  •