人工智能（Artificial Intelligence）领域：

《 深入理解机器学习 》系列和《 深入理解深度学习 》系列主要介绍了机器学习算法和深度学习算法的推导过程与实现方法，而《 机器学习中的数学 》系列详细介绍了在机器学习和深度学习理论中所必要的数学知识，如线性代数、概率论、信息论、数理统计、解析几何、最优化理论等。而《 知识图谱从入门到应用 》系列则深入业务实践层面，深入介绍了知识图谱领域的知识与上述各类算法在知识图谱领域的应用。另外在代码实现层面，《 机器学习项目实战 》基于Python3的 scikit-learn 、 xgboost 、 lightgbm 、 apyori 等模块和公开的真实数据集介绍了真实项目的构建步骤。《 TensorFlow2代码入门到项目实战 》则以Google最新的 TensorFlow2.X 模块讲解了当今业界在深度学习各项目中的实践方法。另外，《 深入浅出TensorFlow2函数 》、《 深入浅出Pytorch函数 》、《 深入浅出PaddlePaddle函数 》则分别以 TensorFlow2.X 、 torch 、 paddle 模块的函数为粒度介绍了各个函数的使用方法、参数、返回值、实现过程等信息。

算法学（Algorithmics）领域：

在《 算法设计与分析 》系列中，我们主要介绍算法学基础的相关知识，这部分的内容基本是算法工程师必备的技能。当今算法工程师有很多种，如：音/视频算法工程师、图像处理算法工程师、计算机视觉算法工程师、自然语言算法工程师、数据挖掘算法工程师、搜索算法工程师、通信基带算法工程师、信号算法工程师、射频/通信算法工程师、控制算法工程师、导航算法工程师等，本系列的内容都是算法工程师必备的知识。

大数据（Big Data）和数据科学（Data Science）领域

《 大数据与数据科学 》系列聚焦于数据分析领域，介绍了除机器学习算法以外的数据科学相关技术。除此之外，还系统介绍了Hadoop及其生态如Spark、Kylin等的相关知识以及这些框架在商业智能中的应用，如：维度建模、数据仓库等知识，这些内容与其它系列文章互补，构建了从数据模型到具体业务的知识体系。在数据获取层面，《 Python爬虫从入门到精通 》系列详细介绍了基于Python3的爬虫技术与方法。

本博客还对人工智能领域常用编程语言Python（《 系统学习Python 》系列）、Scala（《 快速入门Scala 》系列）做了详细介绍，无论是初学、进阶还是作为常用手册的查询，这两个系列的内容都非常合适。同时，《 人工智能与大数据面试指南 》系列汇总了本博客所有涉及的行业与应用场景，为读者总结了相应应用场景下常见的面试问题与其解答。

各分类的目录与介绍如下，我会根据实际情况逐渐完善各个分类下的内容。

深入理解机器学习

《深入理解机器学习》系列不仅仅把目光局限机器学习算法的推导与实现，还会从数学、统计学以及统计学习的角度来深入理解机器学习算法，除此之外，本系列还会讨论各个机器学习算法局限与瓶颈，纵横向比较各种机器学习算法的优劣等。另外，在详细介绍机器学习算法的同时，我还会通过Python以及相关机器学习模块如 scikit-learn 、 apyori 等给出相关项目的实战代码。希望读者能通过阅读本系列的文章对机器学习算法相关的知识有一定深度的理解。

机器学习概览
数据集的划分与模型评估方法
机器学习模型的性能度量
线性回归（Linear Regression）
广义线性模型（Generalize Linear Model）
逻辑斯蒂回归（Logistic Regression）
k-近邻算法(kNN，k-Nearest Neighbor)
- 基础知识
- 算法定义
基于决策树（Decision Tree）的模型
- 分类树与回归树
朴素贝叶斯（Naive Bayes）
EM算法/最大期望算法（Expectation-Maximization Algorithm）
最大熵模型（Maximum Entropy Model）
支持向量机（Support Vector Machine）
聚类（Clustering）
概率图模型（Probabilistic Graphical Model）
马尔可夫链蒙特卡罗方法（MCMC，Markov Chain Monte Carlo）
集成学习（Ensemble Learning）
类别不平衡学习（Imbalanced Learning）
- 基础知识
- 常用技术概览
- 应用领域
- 类别不平衡分布对传统分类器性能的影响机理
- 影响因素
- 性能评价测度
- 样本采样技术
  - 基础知识
  - 随机采样技术
  - 人工采样技术
    - SMOTE采样法及Borderline-SMOTE采样法
    - ADASYN采样法

深入理解深度学习

《深入理解深度学习》系列以机器学习中的神经网络算法为主线，由浅入深地介绍各类型的神经网络结构与应用场景以及深度学习理论中必备的知识点。除此之外，该分类在介绍完算法后，还会用基于TensorFlow2.0的Python3代码来实现相关算法。在该分类的最后，还会涉及科学家们正在研究的前沿课题与领域，供大家学习与参考。

机器学习中的数学

《机器学习中的数学》系列详细介绍了在机器学习理论中所必要的数学知识，如线性代数、概率论、信息论、数理统计、解析几何、最优化理论等。本章仅介绍机器学习及深度学习理论中必要的数学知识，对其整体的框架逻辑没有做详尽的解读，读者若想系统的学习完整的高等数学方面的知识，可以另找相关教材。在讲授相关知识的同时，该系列还会以Python3为基础，通过引入 pandas 、 numpy 、 tensorflow 等模块来展示相关的数学知识。

概率论与数理统计

最优化理论

深度学习中的优化理论
深度学习优化的挑战
无约束优化方法
有约束优化方法
- 拉格朗日乘子法
  - 拉格朗日乘子法（一）：等式约束的拉格朗日乘子法
  - 拉格朗日乘子法（二）：不等式约束与KKT条件
参数初始化策略

知识图谱从入门到应用

《知识图谱从入门到应用》系列深入算法实践层面，深入介绍了知识图谱领域的知识，如知识图谱的表示、构建、推理和融合等内容。

知识图谱的基础知识
知识图谱的发展
知识图谱的应用
知识图谱的技术结构
知识图谱的知识表示
知识图谱的获取与构建
- 知识工程与知识获取
知识图谱的存储与查询
- 基于关系数据库的知识图谱存储
- 基于原生图数据库的知识图谱存储
知识图谱推理
- 基础知识
- 基于符号逻辑的知识图谱推理
- 基于表示学习的知识图谱推理
  深入浅出TensorFlow2函数
  
  《深入浅出TensorFlow2函数》系列以 TensorFlow2.X 模块的函数为粒度介绍了各个函数的使用方法、参数、返回值、实现过程等信息。每篇文章为一个函数，首先会介绍函数的表现形式以及其意义、使用时的注意事项等信息。其次，会给出函数的参数和返回值。最后，会列出函数的实现过程，这一部分的内容有利于读者深入浅出的理解 TensorFlow2.X 模块的函数。
  - tf.data
    - tf.data.Dataset
  - tf.keras
    - tf.keras.layers
      - tf.keras.layers.Dense
      - tf.keras.layers.Embedding
  - tf.range
  - tf.rank
  - tf.shape
  - tf.size
  - tf.Tensor
    - tf.Tensor.get_shape
  深入浅出Pytorch函数
  
  《深入浅出Pytorch函数》系列以 torch 模块的函数为粒度介绍了各个函数的使用方法、参数、返回值、实现过程等信息。每篇文章为一个函数，首先会介绍函数的表现形式以及其意义、使用时的注意事项等信息。其次，会给出函数的参数和返回值。最后，会列出函数的实现过程，这一部分的内容有利于读者深入浅出的理解 torch 模块的函数。
  深入浅出PaddlePaddle函数
  
  《深入浅出PaddlePaddle函数》系列以 paddle 模块的函数为粒度介绍了各个函数的使用方法、参数、返回值、实现过程等信息。每篇文章为一个函数，首先会介绍函数的表现形式以及其意义、使用时的注意事项等信息。其次，会给出函数的参数和返回值。最后，会列出函数的实现过程，这一部分的内容有利于读者深入浅出的理解 paddle 模块的函数。
  算法设计与分析
  
  《算法设计与分析》以算法设计为核心，详细系统地介绍了数据结构和算法学的相关理论。在需要代码实践的部分，本系列使用了伪代码或Python代码实现，有兴趣的读者还可以自行选用自己喜爱的语言实现该过程。
  - 算法学基础
  - 排序算法
  - 顺序统计量
  - 分治策略
    - 分治策略（一）：基础知识
  - 基础数据结构
  - 高级数据结构：
  - 动态规划
  - 贪心算法
  - 摊还分析
  - 基于图的算法
  - NP理论
  - 非线性方程与牛顿迭代法
  - 优化算法
  大数据与数据科学
  
  《大数据与数据科学》系列囊括了大数据和数据科学的相关内容。除此之外，还包含了与大数据与数据科学领域相关的商业智能的内容，如维度建模与数据仓库Hive编程的内容。
  - 大数据概述
  - Hadoop与Spark等大数据框架介绍
  - Hadoop
    - MapReduce
    - HDFS（分布式文件管理系统）
    - YARN
  - Spark
  - 数据预处理技术基础
  - 维度建模概述
  数据仓库Hive编程
  - Hive基础知识
  - 数据类型和文件格式
  - HiveQL的数据定义
  - HiveQL的数据操作
    - 向管理表中装载数据
  Python爬虫从入门到精通
  
  《 Python爬虫从入门到精通》系列以一个仅会Python基础的程序员的角度深入讲解了Python爬虫理论及实战。数据作为数据科学领域的基石具有十分重要的意义，而爬虫作为数据获取中一个重要的手段值得各位希望从事数据科学领域的朋友们学习理解。
- 请求库的使用
  - Urllib
  - Requests
    - 请求库requests的使用（一）：基本用法
    - 请求库requests的使用（二）：高级用法
- 解析库的使用
- Ajax数据爬取
- 爬虫实战篇：
系统学习Python

《系统学习Python 》系列将深入浅出地介绍Python语言的各个特性。无论您对Python毫无基础还是有几年Python编程经验，本分类的文章都会非常适合您。在本分类下，我还会适当的标出Python高级特性的部分，如果您是初学者，可以跳过该部分的学习。除此之外，我还会介绍Python的一些编程技巧以及Python编程中的一些易错点。
高级数据结构
- 下划线的作用与意义：单下划线与双下划线
字符串（str）
- 字符串前的字母‘u’、‘r’、‘b’、‘f’的作用
字典（dict）
- copy()函数
Python 标准库
- 堆队列算法 heapq ：利用heapq模块实现堆
- 容器数据类型 collections
  - deque ：利用collections.deque模块实现双向队列
数据结构
- 堆：利用heapq模块实现堆
- 双向队列：利用collections.deque模块实现双向队列
- Trie树：实现数据结构字典树（前缀树、Trie树）
Python 第三方库
- 进度条模块 tqdm
- 科学计算库NumPy
  - 随机数模块 numpy.random
- 2D绘图库Matplotlib
  - 绘图函数 matplotlib.pyplot.plot

快速入门Scala

《快速入门Scala 》系列面向零基础的读者。博主希望零基础的读者能通过阅读该分类下的文章能够快速入门Scala，对Scala语法有一个基本的认识，能读懂代码并上手Scala的小项目。Scala作为Spark的底层语言越发越受到重视，在使用Spark处理大数据时，相比于Java与Python，Scala得天独厚的优势即将显现。

人工智能与大数据面试指南

《 人工智能与大数据面试指南 》系列汇总了本博客所有涉及的行业与应用场景，如：机器学习、深度学习、大数据、算法与数据结构、自然语言处理、计算机视觉、知识图谱、推荐系统等各领域的内容，为读者总结了相应应用场景下常见的面试问题与其解答。本系列下的内容会持续更新，有需要的读者可以收藏文章，以及时获取文章的最新内容。

本博客主要参考的书籍及资料：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015.
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] James G , D Witten, Hastie T , et al. An Introduction to Statistical Learning: With Applications in R[M]. 2013.
[4] Albert King. AKShare. GitHub, 2019.
[5] ThomasH.Cormen, Cormen, Leiserson,等. 算法导论[M]. 机械工业出版社, 2006.
[6] Mark Lutz. Python学习手册[M]. 机械工业出版社, 2018.
[7] 周志华. 机器学习[M]. 清华大学出版社, 2016.
[8] 崔庆才. Python 3网络爬虫开发实战（第二版）[M]. 人民邮电出版社, 2021.
[9] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.
[10] 王喆. 深度学习推荐系统[M]. 电子工业出版社, 2020.
[11] 于化龙.类别不平衡学习：理论与算法[M].清华大学出版社, 2017.
[12] Storm, 李鲲程, 边宇明.Python实现Web UI自动化测试实战[M]. 人民邮电出版社, 2021.
[13] 陈华钧.知识图谱导论[M].电子工业出版社, 2021.
[14] 邵浩, 张凯, 李方圆, 张云柯, 戴锡强. 从零构建知识图谱[M].机械工业出版社, 2021.
[15] Thomas H. Cormen 等, 殷建平. 算法导论[M]. 机械工业出版社, 2013.
[16] Pang-NingTan, MichaelSteinbach, VipinKumar. 数据挖掘导论[M]. 人民邮电出版社, 2010.

决策树（Decision Tree）是一种基本的分类与回归方法。本文会讨论决策树中的分类树与回归树，后续文章会继续讨论决策树的Boosting和Bagging的相关方法。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。分类树是一种描述对实例进行分类的树形结构。用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测... 机器学习算法是一种能够从数据中学习的算法。卡耐基梅隆大学计算机科学学院机器学习系主任Mitchell给出了机器学习算法的定义：对于某类任务TTT和性能度量PPP，一个计算机程序被认为可以从经验EEE中学习是指，通过经验EEE改进后，它在任务TTT上由性能度量PPP衡量的性能有所提升。经验EEE，任务TTT和性能度量PPP的定义范围非常宽广，我们会在接下来的文章中提供直观的解释和示例来介绍不同的任务、性能度量和经验，这些将被用来构建机器学习算法。任务TTT 机器学习可以让我们解决一些人为设计和使用确定性程欧几里得距离或欧几里得度量是欧几里得空间中两点间的即直线距离。使用这个距离，欧氏空间成为度量空间，相关联的范数称为欧几里得范数。 nnn维空间中的欧几里得距离： d(x,y)=∑i=1n(xi−yi)2=(x1−y1)2+(x2−y2)2+⋯+(xn−yn)2d(x, y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+\cdots+(x_n-y_n)^2}d(x,y)=i=1∑n(xi−yi)2=(x1−y1)2+(x markdown 生成带目录的文件安装用法1 、进入 markdown 文件所在的文件夹2 、进入 md 文件所在的文件夹后, 输入命令: markdown 文件生成下面这种带侧边栏目录的 html 文件 npm install -g i5ting_toc 1 、进入 markdown 文件所在的文件夹举个栗子: 你的sample.md文件放在桌面上 cd /Users/GJ... 本篇文章讲述为博客文章添加自动生成目录的功能。讲述功能之前，我先说下我的博客文章从编写到发布展现给读者的大致过程。我的文章都是在本地用markdown语法编写的，待文章写完后，就直接从网站管理后台上传至服务器，这时读者就可以在我的网站看到我刚发布的文章了。当读者点击某一篇文章时，浏览器会发送一个请求，请求这篇文章获得文章的信息（包括markdown内容），请求成功后，markdown会被转换成html格式（这个转换我用的是Showdown.js库完成的），有了html代码，就可以直接在 1 C++ vector 删除和排序的相关函数 https://blog.csdn.net/boysoft2002/article/details/112895584 2 C++ ＜algorithm＞Sort()函数秒杀任何常用排序算法 https://blog.csdn.net/boysoft2002/article/details/113916668 3 Python tkinter库之Canvas 根据函数解析式或参数方程画出图像 https://blog.csdn.net/boysoft20... 本索引目录会一直不断进行更新…最近更新时间：2022.6.7 16:38物联网：2020后半段时间学习的javaweb 学习笔记可见语雀(当时记录在那里就不搬过来了)：语雀-Javaweb对应尚硅谷的Spring5 学习笔记：语雀-框架/Spring5对应黑马SpringMVC教程学习笔记：语雀-框架/SpringMVC对应黑马SpringMVC教程学习笔记：语雀-框架/MybatisMyBatis插件：................................................... 本博客主要使用系统化模式来编写博客，主要分为：学习能力体系、技术积累体系、管理知识体系整个博客，主要是先建立起学习能力体系，借助学习能力体系在两个新的领域技术和管理进行践行。我是一个思维导图和思维模型爱好者(通过TBCP 认证和导图等级考试Lv3)，博客很多部分会使用思维导图工具和思维模型做知识梳理。看博客的伙伴不必过于关注...