我喜欢airflow的理念,但我被卡在了基础知识上。从昨天开始,我在一个vm ubuntu-postgres解决方案上运行airflow。我可以看到仪表板和示例数据:))我现在想要的是迁移一个示例脚本,我用它来处理原始数据和准备数据。
想象一下,你有一个包含csv文件的文件夹。今天,我的脚本对它进行迭代,把每个文件传到一个列表中,这个列表将被转换为df文件。之后,我准备好它们的列名,做一些数据清理工作,并把它写成不同的格式。
1: pd.read_csv for files in directory
2: 创建一个DF
3:清洁列名
4:清洁值(与STP 3平行)。
5:将结果写到数据库中
我得如何根据气流来组织我的文件?脚本应该是什么样子的?我是传递一个方法,一个文件,还是要为每个部分创建几个文件?在这一点上,我缺乏基本的概念:(我读到的关于气流的所有内容都比我的简单案例复杂得多。我正在考虑放弃气流,转而使用Bonobo, Mara, Luigi,但我认为气流是值得的。