相关文章推荐
魁梧的钥匙扣  ·  Transformer-Based ...·  1 周前    · 
重感情的黄瓜  ·  Android ...·  1 月前    · 
聪明的烤红薯  ·  【译】JavaScript Source ...·  10 月前    · 
酷酷的熊猫  ·  bufferedimage转inputstr ...·  1 年前    · 
刚毅的鸵鸟  ·  ajax - What does it ...·  1 年前    · 

这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,Part One简单介绍Kaggle,Part Two将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。

0、一个小推荐~

目前,在kaggle中应用的最广泛的语言就是python, 相较于传统的机器学习算法, 深度学习算法在kaggle比赛产生了巨大的影响,如果大家想要系统的学习和研究python以及在其基础上的常见的机器学习和深度学习框架和工具包, 那么强烈推荐大家学习CSDN开设的:

人工智能在网络领域的应用与实践 :

https://edu.csdn.net/course/play/10319?utm_source=sooner

这个课程我实际听了, 老师的讲授水平很好, 条理清晰,思路明确,例子丰富, 非常值得大家学习借鉴, 在此强烈推荐一波, 让我们一起学习进步~

ps: 如果想要系统学习python的朋友,下面这门课是涵盖了python基础语法、web开发、数据挖掘以及机器学习,是CSDN强力推荐的课程,有需要的朋友可以看看哈:

Python全栈工程师 :

https://edu.csdn.net/topic/python115?utm_source=sooner

1、Kaggle简介

Kaggle是一个数据分析的竞赛平台,网址: https://www.kaggle.com/

企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、深度学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合 指标要求 (比如logloss,mse等)并且在参赛者中排名第一,将获得比赛丰厚的奖金(都是以美元为单位哦!)。

下面以图文的形式介绍Kaggle:

这里写图片描述
Kaggle的正规项目分为四类,
分别是: Featured Research Recruitment Getting Started 。下面,分别介绍

Featured

Featured 译为“号召”,召集数据科学高手去参赛,这里面的竞赛平均难度是比较高的,而且项目涉及到的大部分是企业或政府的实际需求。
这里写图片描述
目前这类项目有129个,为正式的Kaggle项目比例最大的一部分。

Research
香蕉黄对应的是 Research ,奖金少一点。这个类别的比赛和 Featured 一样,是有奖竞赛,难度自然不小,作为入门者,可以先做做 练习赛 ( Getting Started )
这里写图片描述

Recruitment
Recruitment 是一些顶尖的公司用于招聘数据科学家来帮助公司解决难题的。这些公司(如Facebook、Airbnb等)会提出一些问题,来考察各路大神的算法和解决方案的可行性,最终给出工作offer。这一块着重是对于尖端数据科学人才的考验。
这里写图片描述

Getting Started
Getting Started 是入门赛,最典型的是大家应该都听过的
Titanic: Machine Learning from Disaster 泰坦尼克号预测乘客死亡情况
这里写图片描述

2、Kaggle各类项目简介

本节以最主要的两类项目为例进行分析,其他类别(Getting Started,Recruitment等)的项目分析如有需要,可以联系我qq。

Featured

Featured 以最近两年的项目(30个)进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。
这里写图片描述
这里写图片描述

Zillow Prize: Zillow’s Home Value Prediction (Zestimate)

这里写图片描述
问题目标 :预测加州三郡(LA Orange Ventura)未来某个时间段内的房屋价格
问题类型 :回归问题(Regression);时间序列分析;特征工程
问题特点 :考虑影响房价的因素,并根据时间段做时间序列分析;可以使用Xgboost或LightGBM框架来做。

Passenger Screening Algorithm Challenge

这里写图片描述
问题目标 :提升美国国土安全部(DHS)的威胁评估算法
问题类型 :分类问题(Classification);监督学习
问题特点 :机场安检的威胁评估算法,考虑的数据量很大,而且要求保证算法的速度。

Carvana Image Masking Challenge
这里写图片描述
问题目标 :自动识别图片中汽车的边界
问题类型 :计算机视觉(CV)
问题特点 :边界处理,模型提取。

Instacart Market Basket Analysis
这里写图片描述
问题目标 :预测Instacart的客户将会再次购买的产品
问题类型 :推荐系统 (Recommendation System)
问题特点 :根据用户行为建模,预测出跟用户相性好的产品。

Planet: Understanding the Amazon from Space
这里写图片描述
问题目标 :根据卫星数据预测人类在亚马逊雨林的足迹
问题类型 :计算机视觉(CV);时间序列分析(Time-Series Analysis);动态规划(DP)
问题特点 :非常综合的问题,即涉及到图像处理,又与图算法有关。

Mercedes-Benz Greener Manufacturing
这里写图片描述
问题目标 :优化奔驰车在测试时的时间
问题类型 :回归问题(Regression);模式识别(Pattern Recognition)
问题特点 :维度灾难(curse of dimensionality)

Sberbank Russian Housing Market
这里写图片描述
问题目标 :预测俄罗斯的房地产市场波动情况
问题类型 :回归问题(Regression)
问题特点 :多层次的特征,不仅限于房屋状况,还与国内经济状况有关的特征,综合分析。

NOAA Fisheries Steller Sea Lion Population Count
这里写图片描述
问题目标 :根据航拍图像内容,研究算法分析图片中有几个海狮
问题类型 :计算机视觉(CV);模式识别(Pattern Recognition)
问题特点 :典型的计算机视觉和边界识别的综合问题。

Intel & MobileODT Cervical Cancer Screening
这里写图片描述
问题目标 :预测女性宫颈癌类别
问题类型 :分类问题(Classification);计算机视觉(CV)
问题特点 :图像识别,确定宫颈癌类别。

Quora Question Pairs
这里写图片描述

问题目标 :根据问题内容,定位已经被回答过的类似问题
问题类型 :聚类(Cluster);自然语言处理(NLP)
问题特点 :避免用户问重复的问题,也节省答题人的时间。

Google Cloud & YouTube-8M Video Understanding Challenge
这里写图片描述
问题目标 :训练一个分类器,为视频做标签
问题类型 :分类问题(Classification);深度学习(DL)
问题特点 :噪声数据;主特征提取

The Nature Conservancy Fisheries Monitoring

这里写图片描述
问题目标 :根据视频内容,识别鱼的种类
问题类型 : 计算机视觉(CV);分类问题(Classification);深度学习(DL)
问题特点 :模式识别加上Deep Learning的内容。

Data Science Bowl 2017

这里写图片描述
问题目标 :提高肺癌预测的准确性
问题类型 : 计算机视觉(CV);模型识别(Pattern Recognition);分类问题(Classification)
问题特点 :根据高分辨率的肺部扫描精准判断病变是否为癌变。

Dstl Satellite Imagery Feature Detection

这里写图片描述
问题目标 :从高空图像中准确辨别各种特征
问题类型 :计算机视觉(CV);深度学习(DL)
问题特点 :根据卫星图像对地球上的物体进行识别。

Two Sigma Financial Modeling Challenge

这里写图片描述
问题目标 :预测未来经济走势(只要算法)
问题类型 : 算法(Algorithms)
问题特点 : 根据世界的不确定性,科学预测未来的经济发展和机会。

Outbrain Click Prediction

这里写图片描述
问题目标 : 预测文章的哪部分是全球读者更喜欢的(有意愿点击的)
问题类型 : 推荐系统(Recommendation System);自然语言处理(NLP)
问题特点 : 文本相似度分析,新闻热度分析。

Santander Product Recommendation

这里写图片描述
问题目标 :为Santander用户推荐产品
问题类型 :推荐系统(Recommendation System)
问题特点 :个性化的产品推荐,依据用户行为建模。

Bosch Production Line Performance

这里写图片描述
问题目标 :预测Bosch的内部失败率
问题类型 :分类问题(Classification)
问题特点 :根据上千种检测手段,预测某批产品失败的可能性。

Predicting Red Hat Business Value

这里写图片描述
问题目标 :根据用户的特点和活动情况,分析其对RedHat的商业价值
问题类型 :分类问题(Classification)
问题特点 :用户价值分析

TalkingData Mobile User Demographics

这里写图片描述
问题目标 :根据用户的手机使用情况,地理位置等信息对用户做画像
问题类型 :用户画像(User portrait);聚类(Cluster)
问题特点 :特征维数多且不同尺度;聚类分析。

Grupo Bimbo Inventory Demand

这里写图片描述
问题目标 :宾宝希望最大化销量的同时,减少从烘焙店返还过期未销售的食品
问题类型 :动态规划(DP)
问题特点 :根据商店的销量情况和返还率,设计每家店的供货分配算法。

Ultrasound Nerve Segmentation

这里写图片描述
问题目标 :根据颈部超声图像识别神经结构
问题类型 :计算机视觉(CV);分类问题(Classification)
问题特点 :根据超声图像自动识别神经结构

State Farm Distracted Driver Detection

这里写图片描述
问题目标 :计算机视觉能否发现驾驶员分心?
问题类型 :分类问题(Classification);计算机视觉(CV)
问题特点 :利用视频实时追踪驾驶员,判断驾驶员是否出现注意力不集中的现象。

Avito Duplicate Ads Detection

这里写图片描述
问题目标 : 欺骗性、重复性的广告检测
问题类型 : 分类问题(Classification);计算机视觉(CV)
问题特点 : 相似度分析。

Draper Satellite Image Chronology

这里写图片描述
问题目标 : 根据五天的卫星图片,预测卫星图片拍摄的时间顺序
问题类型 : 计算机视觉(CV)
问题特点 : 需要额外的特征,比如白天和晚上,图片的变化情况等等。

Expedia Hotel Recommendations

这里写图片描述
问题目标 : 在用户数据不全的情况下,根据用户的搜索情况,预测用户可以预定的酒店类型(100种)
问题类型 : 分类问题(Classification)
问题特点 : 数据不全;日志数据分析。

Santander Customer Satisfaction

这里写图片描述
问题目标 : 预测银行客户对交易体验的感觉(好/坏)
问题类型 : 情感分析;分类问题(Classification)
问题特点 : 根据上百维未知的特征,来预测客户的体验,筛选特征的重要程度。
Home Depot Product Search Relevance

这里写图片描述
问题目标 : 预测Home Depot网站相关的搜索结果
问题类型 : 推荐系统(Recommendation System);聚类(Cluster)
问题特点 : 产品相似度分析。

BNP Paribas Cardif Claims Management

这里写图片描述
问题目标 : 加速BNP Paribas Cardif公司的出险赔付流程
问题类型 : 优化问题
问题特点 : 1、什么样的索赔更容易得到赔付?2、索赔所需要的额外信息?

Prudential Life Insurance Assessment

这里写图片描述
问题目标 : 简化个人购买保险业务的难度
问题类型 : 聚类(Clsuter);非监督学习;NLP
问题特点 : 噪声数据;把相似的保险方案归并成一套,供消费者选择,以免消费者懵掉。

Research
这里写图片描述
这里写图片描述

Research 的项目进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。

Personalized Medicine: Redefining Cancer Treatment

这里写图片描述
问题目标 :根据给定数据,预测基因变种属于哪一类
问题类型 :分类问题(Classification);NLP;监督学习
问题特点 :对临床数据的处理甚至对专家来说也是复杂和费时的,所以,依据临床数据建立的模型是非常重要的。

Create an image classifier that is robust to adversarial attacksHouse Prices: Advanced Regression Techniques

这里写图片描述
问题目标 :针对广告图片稍微变化,就导致分类器分类错误的情况。训练一个鲁棒性强的图片分类器
问题类型 :分类问题(Classification);监督学习
问题特点 : 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Imperceptibly transform images in ways that fool classification models

这里写图片描述
问题目标 :将图片的内容转换,争取迷惑分类模型(跟②是一个系列的问题)
问题类型 :分类问题(Classification)
问题特点 : 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Develop an adversarial attack that causes image classifiers to predict a specific target class

这里写图片描述
问题目标 :开发一个广告图片攻击工具,目标是使分类器的效果下降
问题类型 :分类问题(Classification)
问题特点 : 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Web Traffic Time Series Forecasting

这里写图片描述
问题目标 :预测维基百科(Wikipedia)的页面未来的访问情况
问题类型 :回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点 :典型的时间序列分析问题,需要先验知识。

Fine-grained classification challenge spanning 5,000 species.

这里写图片描述
问题目标 :相似生物分类识别
问题类型 :分类问题(Classification);计算机视觉(CV)
问题特点 :大型分类问题;深度学习。

Can you assign accurate description labels to images of apparel products?

这里写图片描述
问题目标 :准确的为图片中的明显物品做标注(Label)
问题类型 :分类问题(Classification);计算机视觉(CV)
问题特点 :深度学习的重要应用;标签相似性处理;照片背景不同处理。

Predict seizures in long-term human intracranial EEG recordings

这里写图片描述
问题目标 :根据癫痫患者的脑电图,预测其癫痫发作的情况
问题类型 :时间序列分析(Time-Series Analysis)
问题特点 :典型的时间序列分析问题,推荐对每个癫痫患者的癫痫模式进行建模,从而有针对性的安排人照顾。

How Much Did It Rain? II

这里写图片描述
问题目标 :跟How Much Did It Rain?一样,预测降雨量
问题类型 :分类问题(Classification);时间序列分析(Time-Series Analysis)
问题特点 :将降雨量限定在一定范围内,满足一个范围的话,对应的类设为1。

Right Whale Recognition

这里写图片描述
问题目标 :根据航拍照片,预测图片中是否有濒危动物脊美鲸(right whales)
问题类型 :分类问题(Classification);计算机视觉(CV)
问题特点 :类似于物体检测的情况。

Grasp-and-Lift EEG Detection

这里写图片描述
问题目标 :根据EFG信号进行手势识别
问题类型 :分类问题(Classification)
问题特点 :噪声数据

ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)

这里写图片描述
问题目标 :根据出租车当前运行轨迹,预测其目的地
问题类型 : 计算机视觉(CV);动态规划(DP)
问题特点 :涉及到图运算和拓扑学的内容

ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)

这里写图片描述
问题目标 :根据出租车当前运行轨迹,预测本次行程时间
问题类型 : 计算机视觉(CV);动态规划(DP);回归问题(Regression)
问题特点 :涉及到图运算和拓扑学的内容

15.071x - The Analytics Edge (Spring 2015)

这里写图片描述
问题目标 :预测纽约时报哪篇博文最受欢迎
问题类型 : 分类问题(Classification)
问题特点 :多维度分析

Microsoft Malware Classification Challenge (BIG 2015)

这里写图片描述
问题目标 :基于文件内容和特点对恶意软件进行分类
问题类型 : 分类问题(Classification)
问题特点 :神经网络(NN)

BCI Challenge @ NER 2015

这里写图片描述
问题目标 :根据脑波数据预测对应的单词和图像是否对应
问题类型 : 分类问题(Classification);FFT(Fast-Fourier analysis)
问题特点 :对频域数据进行分析

American Epilepsy Society Seizure Prediction Challenge

这里写图片描述
问题目标 :根据颅内EFG信号预测狗的癫痫症状发生情况
问题类型 :时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点 :典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

Display Advertising Challenge

这里写图片描述
问题目标 :预测广告的点击转化率(CTR)
问题类型 : 回归问题(Regression)
问题特点 :FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

Click-Through Rate Prediction

这里写图片描述
问题目标 :预测广告的点击转化率(CTR)
问题类型 : 回归问题(Regression)
问题特点 :FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

Africa Soil Property Prediction Challenge

这里写图片描述
问题目标 :预测土壤的物理化学成分
问题类型 : 回归问题(Regression)
问题特点 :特征维数多;官方示例是用贝叶斯加性模型做的。

UPenn and Mayo Clinic’s Seizure Detection Challenge

这里写图片描述
问题目标 :根据颅内EFG信号预测癫痫症状发生情况
问题类型 :时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点 :典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

DecMeg2014 - Decoding the Human Brain

这里写图片描述
问题目标 :预测视觉刺激对人脑活动的影响
问题类型 :时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);计算机视觉(CV);二分类问题(Binary Classification)
问题特点 :问题㉑的升级版

MLSP 2014 Schizophrenia Classification Challenge

这里写图片描述
问题目标 :通过MRI扫描预测是否患有精神分裂症(schizophrenia)
问题类型 : 分类问题(Classification);计算机视觉(CV)
问题特点 : 利用不同切面的核磁共振图像来进行诊断;多模态分析。

KDD Cup 2014 - Predicting Excitement at DonorsChoose.org

这里写图片描述
问题目标 :对慈善项目进行评级,决定是否捐赠
问题类型 : 分类问题(Classification)
问题特点 : 多维度分析,类似信用评级问题。

Greek Media Monitoring Multilabel Classification (WISE 2014)

这里写图片描述
问题目标 :对项目评级,决定是否捐赠
问题类型 : 分类问题(Classification);NLP
问题特点 : 噪声数据;希腊语。

CONNECTOMICS

这里写图片描述
问题目标 :根据1000个神经元的活动情况,判断神经元之前是否有突触连接。
问题类型 : 时间序列分析(Time-Series Analysis);计算机视觉(CV)
问题特点 : 神经元;树突轴突。

Large Scale Hierarchical Text Classification

这里写图片描述
问题目标 : 大规模文本(维基百科)分类问题
问题类型 : NLP
问题特点 : 可以用LSTM来做。

Galaxy Zoo - The Galaxy Challenge

这里写图片描述
问题目标 : 对宇宙中的不同距离的星系的形态进行分类
问题类型 : 分类问题(Classification);计算机视觉(CV)
问题特点 : 宇宙。

PAKDD 2014 - ASUS Malfunctional Components Prediction

这里写图片描述
问题目标 : 预测Asus笔记本未来可能发生故障的部位
问题类型 : 分类问题(Classification);
问题特点 : 多维度分析(销售时间、销量和修理次数等等)

Loan Default Prediction - Imperial College London

这里写图片描述
问题目标 : 构造最优贷款组合(optimal portfolio of loans)
问题类型 : 贷款组合;
问题特点 : 噪声数据;降维。

Multi-label Bird Species Classification - NIPS 2013

这里写图片描述
问题目标 : 根据风声记录预测87类动物(鸟/两栖动物)
问题类型 : 语音识别;分类问题(Classification)
问题特点 : 声音识别。

Accelerometer Biometric Competition

这里写图片描述
问题目标 : 根据加速度记录仪的数据预测其是否属于特定的手机
问题类型 : 分类问题(Classification)
问题特点 : 手机加速度计数据分析。

AMS 2013-2014 Solar Energy Prediction Contest

这里写图片描述
问题目标 : 预测奥克拉荷马每日的太阳能情况
问题类型 : 回归问题(Regression)
问题特点 : 空间;先验知识。

The Big Data Combine Engineered by BattleFin

这里写图片描述
问题目标 : 根据新闻和情感数据分析来预测短期股价的变化
问题类型 : 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点 : 情感分析;金融数据。

RecSys2013: Yelp Business Rating Prediction

这里写图片描述
问题目标 : Yelp商业评分预测
问题类型 : 回归问题(Regression);NLP
问题特点 : 情感分析;多维度分析。

Multi-modal Gesture Recognition

这里写图片描述
问题目标 : 多模态手势识别(2D/3D)
问题类型 : 计算机视觉(CV)
问题特点 : 卷积神经网络;RGB;降维。

The ICML 2013 Bird Challenge

这里写图片描述
问题目标 : 根据语音记录识别鸟的类别
问题类型 : 语音识别
问题特点 : 频域分析。

Challenges in Representation Learning: Multi-modal Learning

这里写图片描述
问题目标 : 为图像做Label
问题类型 : 计算机视觉(CV);自然语言处理(NLP)
问题特点 : 多模态分析(图片/文字);标注。

Challenges in Representation Learning: Facial Expression Recognition Challenge

这里写图片描述
问题目标 : 识别图像中人脸表情
问题类型 : 计算机视觉(CV);分类问题(Classification)
问题特点 : 面部表情分类器;灰度图片。

Challenges in Representation Learning: The Black Box Learning Challenge

这里写图片描述
问题目标 : 黑箱预测问题
问题类型 : 分类问题(Classification)
问题特点 : 数据没有实际意义;降维。

ICDAR2013 - Handwriting Stroke Recovery from Offline Data

这里写图片描述
问题目标 : 预测手写签名的轨迹
问题类型 : 动态规划(DP);计算机视觉(CV)
问题特点 : 笔画方向;左/右撇子。

ICDAR2013 - Gender Prediction from Handwriting

这里写图片描述
问题目标 : 预测手写笔记的作者是男还是女
问题类型 : 计算机视觉(CV);分类问题(Classification)
问题特点 : 性别特征对字体形态的影响;神经网络

Predicting Parkinson’s Disease Progression with Smartphone Data

这里写图片描述
问题目标 : 根据用户的手机信息评估帕金斯综合症患者是否有症状发作的迹象/情况
问题类型 : 时间序列分析(Time-Series Analysis);语音处理(Speech Processing)
问题特点 : 多尺度数据;语音数据处理。

Visualize the State of Public Education in Colorado

这里写图片描述
问题目标 : 根据科罗拉多州各学校3年的成绩数据,预测每个学校可能升到好学校的可能性
问题类型 : 特征工程(Feature Engineering );回归问题(Regression)
问题特点 : 多指标考核;评分标准。

Global Energy Forecasting Competition 2012 - Load Forecasting

这里写图片描述
问题目标 : 预测美国20个地区的小时用电量(功率)
问题类型 : 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点 : 多维度分析。

Global Energy Forecasting Competition 2012 - Wind Forecasting

这里写图片描述
问题目标 : 预测7个风力发电厂的现在——未来48小时每小时产生的电量
问题类型 : 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点 : 多维度分析。

Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter

这里写图片描述
问题目标 : 基于用户的查询记录预测其最感兴趣的Xbox游戏类别
问题类型 : 推荐系统(Recommendation system)
问题特点 : 词云;关键词分析。

Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site

这里写图片描述
问题目标 : 基于用户的查询记录预测其最感兴趣的BestBuy产品类别
问题类型 : 推荐系统(Recommendation system)
问题特点 : 大数据分析;关键词分析。

CPROD1: Consumer PRODucts contest #1

这里写图片描述
问题目标 : 自动分辨消费者提到的产品并正确的识别产品的类别
问题类型 : 分类问题(Classification);NLP
问题特点 : 大数据分析;自然语言处理。

Practice Fusion Diabetes Classification

这里写图片描述
问题目标 : 诊断病人是否患有二型糖尿病
问题类型 : 分类问题(Classification)
问题特点 : 非线性边界。

剩余的项目分析可以联系我的qq获取。

这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,Part One简单介绍Kaggle,Part Two将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。1、Kaggle简介Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/企业或者研究者可以将数据、问题描述、期望的指标发布到Kagg 击败 Microsoft 恶意软件分类挑战 (BIG 2015) 的基准 嗨, Kaggle rs, 这是我在排行榜上得分为 0.1826662 的解决方案的 github 存储库。 解决方案很简单,烦人的部分是 数据 准备。 它仅使用 .byte 文件来预测类别。 它计算两字节代码(00 到 FF)的频率以及 ?? 并使用该信息进行预测。 在使用这些文件之前,您必须执行以下步骤: 从训练和测试 7z 中提取 .byte 文件 Gzip .byte 文件到 .byte.gz 格式并移动到 train_gz / test_gz 文件。 我知道这两个步骤会花费很多时间,对我来说是 6 个小时。 :) 一旦你有 10868 个训练文件和 10873 个 gz 格式的测试文件,运行以下命令 python data _consolidation.py
【目标检测论文阅读笔记】Small Object Detection in Remote Sensing Images with Residual Feature Aggregation-Based
今晚参加了 豆豆叶 在知乎举办的 Live: 机器学习 与我的学术日常 。 我参加的目的就是我想了解一下 机器学习 有一定成果的同龄人,是怎么样子做学术,怎么样学习这个学科的。 参加完这个 Live,回头总结来看,收获真的挺多的。 Background 豆豆叶,本科毕业于中科大数学系。他原来是中科大计算机的