• 深度学习是机器学习的分支,从有限样例中通过算法总结出一般性的规律,应用到未知的数据上。
  • 深度学习:原始数据输入—>多个线性或非线性组件—>每个组件对信息进行加工,影响后续组件—>最后的输出结果。
  • 贡献度分配问题:关系到如何学习每个组件中的参数。神经网络模型可以使用误差反向传播算法,较好地解决贡献度分配问题。
  • 本书主要内容:深度学习、机器学习、概率图模型、神经网络。​​​​​​​ 

1.1  机器学习

  • 浅层学习:不涉及特征学习,特征是通过人工经验或者特征转换的方法抽取,将特征输入到预测模型,并输出预测结果。
  • 图像数据—表示成连续向量
  • 文本数据—由离散符号组成,每个符号都是无意义的编码

        机器学习模型步骤

  • 数据预处理:数据清理–如去掉缺失特征样本,去掉冗余的数据特征
    • 加工—如数据特征缩放或归一化
    • 形成一个可以用于机器学习训练的数据集
  • 特征提取:图像分类–如提取边缘、尺度不变特征变换            
    • 文本分类–如去除停用词
  • 特征转换:对特征进一步加工
    • 降维:特征抽取和特征选择,如主成分分析、线性判别分析LDA
  • 预测:学习一个函数进行预测

1.2  表示学习

       局部表示和分布式表示

  • 表示学习:算法可以自动学习出有效特征,提高机器学习模型的性能
  • 语义鸿沟:表示学习的关键是解决语义鸿沟问题
  • 语义鸿沟:输入数据的底层特征和高层语义信息之间具有不一致性和差异性。
  • 一个好的表示是在某种程度上反映出数据的高层语义特征,那么就能相对容易地构建机器学习模型。
  • 好的表示:同样大小的向量可以表示更多信息;可以使后续学习任务变得简单,需要包含更高层的语义信息;具有一般性,容易迁移到其他任务上
  • 局部表示:one-hot向量,独热编码; |v|维向量;第i个颜色,就是第i维的值是1,其他都是0
  • 独热编码优缺点:
    • 优点:具有很好的解释性;向量是稀疏的二值向量,当用于线性模型计算时,绩效效率较高。
    • 缺点:维数很高,不容易扩展,每增加一个新的颜色,就要新增一个维度;不同颜色间的相似度为0(如红色和中国红
  • 分布式表示:低维的稠密向量,RGB值表示颜色,只需要三维的稠密向量就可以表示所有颜色,不同颜色的相似度也可以计算
  • 嵌入embedding:将一个度量空间中的一些对象映射到另一个低维的度量空间中,并尽可能保持不同对象之间的拓扑关系。如NLP中的分布式表示,也叫词嵌入。

        表示学习

  • 好的高层语义表示(一般是分布式表示):需要从底层特征开始,经过多步非线性转换才能得到。
  • 构建具有一定深度的多层次表示特征

1.3  深度学习

  • 深度:原始数据进行非线性特征转换次数
  • 深度学习流程:原始数据–底层特征–中层特征–高层特征–预测
    • 三个特征过程:表示学习过程
    • 深度学习可以代替人工设计的特征,从而避免机器学习中的特征工程
  • 端到端学习:学习过程中不进行分模块或者分阶段训练,直接优化任务的总体目标。端到端学习也需要解决贡献度分配问题。
  • 自然语言处理任务:分词–词性标注–句法分析–语义分析–语义推理等。
    • 存在问题1:每一个模块之间需要单独优化,其优化目标和任务总体目标不能保持一致
    • 存在问题2:前一步的错误会对后续的模型产生很大影响

1.4  神经网络

  • 人工神经网络:由多个节点互相连接而成,可以对数据间的复杂关系进行建模
    • 不同节点之间的连接被赋予不同权重,每个权重代表一个节点对另一个节点的影响大
    • 每个节点代表一种特定函数,来自其他节点的信息经过相应的权重综合计算
    • 最终,输入到一个激活函数中得到一个信息活性值

1.5  本书知识体系

【邱锡鹏-神经网络与深度学习】第一章绪论 知识点汇总-编程知识网