第一周
- 2020-07-01
- 2020 腾迅广告大赛
- 整理机器学习项目处理流程
- 整理数据清洗的 SQL 语句
- 整理特征提取的 Python 代码
- 2020 腾迅广告大赛
- 2020-07-02
- 帮娃找游泳池
- 2020 腾迅广告大赛
- 了解 Keras 的 RNN 处理变长序列
- Embedding 使用
mask_zero=True/False
遮蔽数值 0 - Masking 使用
mask_value=number
遮蔽数值number
- 使用 Embedding 或者 Masking 后,不能使用运算速度更快的
CuDNNLSTM ( )
和CuDNNGRU ( )
,因为这两个都不能支持 mask,即 Embedding 设置mask_zero=True
时,model.compile ( )
会报错。
- Embedding 使用
- 撰写机器学习项目实施流程
- 基于规范的流程,确保工作的顺利和流程的完整,能够控制和监控进度。
- 了解 Keras 的 RNN 处理变长序列
- 2020-07-03
- 带娃游泳
- 回家休息
- 循环神经网络
- 可以从随机过程的角度来分析 RNN
- 可以从隐变量建模的角度来分析 RNN
- Keras
- 性能评估指标:准确率 ( 预测正确的比例 )、查准率 ( 多分类问题 )、查全率 ( 多分类问题 )
- 优化器:SGD ( 随机梯度下降 )、RMSProp ( 基于动量速度更快 )、Adam ( 基于动量精度更高 )
- 2020 腾迅广告大赛
- 使用 Gensim 训练 Word2Vec 代码重构
- 带娃游泳
- 2020-07-04
- 带娃游泳
- 回家休息
- 卷积神经网络
- 不同的通道,可以理解为信号经过不同的变换,例如:Fourier 变换、小波变换等等,然后取出有用的变换,使得提取的信号特征极具代表性
- 带娃游泳
第二周
- 2020-07-05
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 使用 Gensim 训练 Word2Vec 模型参数
- 带娃游泳
- 2020-07-06
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 增加 Conv1D 的 filters 数目,提升了精度
- 带娃游泳
- 2020-07-07
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 修改 sparsity 的计算方式
- 带娃游泳
- 2020-07-08
- 2020 腾迅广告大赛
- 重新整理 SQL 文件
- 基于 sparsity 导出的数据
- 基于 tf_idf 导出的数据
- 重新整理 SQL 文件
- 2020 腾迅广告大赛
- 2020-07-09
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 导出 Word2Vec 训练数据
- 带娃游泳
- 2020-07-10
- 2020 腾迅广告大赛
- 重构数据集导出代码
- 重构基于 Word2Vec 的训练模型代码
- CBOW 训练模型代码学习
- 2020 腾迅广告大赛
- 2020-07-11
- 撰写家庭电脑使用日志
- 主适配器设置对 BIOS 和 OS 的影响
- 2020 腾迅广告大赛
- 基于 sparsity,使用 Gensim 训练得到的 Word2Vec 参数,训练 MLP 模型
- 基于 sparsity,在模型训练过程中得到的 Word2Vec 参数,训练 MLP 模型
- 基于 tf_idf,在模型训练过程中得到的 Word2Vec 参数,训练 MLP 模型,效果与 sparsity 没有区别,说明字典足够大时,特征权重的改变帮助不大
- 撰写家庭电脑使用日志
第三周
- 2020-07-12
- 2020 腾迅广告大赛
- 专注于 sparsity_128000,使用 Gensim → Word2Vec,训练 Conv1D 模型,效果不错
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 2020-07-13
- 2020 腾迅广告大赛
- 使用 Conv1D 模型,
gender
可以达到 0.92,除非寻找更加有效的特征,否则效果不会有太大变化 - 使用 Conv1D 模型,
age
可以达到 0.3766,60 次训练模型精度只在 0.37 的左右变化,可能是数据不足,数据的特征不够明显,无法有效区分类别 - 阅读《深度学习》,了解
Conv
的作用主要在于提取特征 - 阅读《Python 深度学习》,了解
Conv + MaxPooling
对于特征提取的影响
- 使用 Conv1D 模型,
- 2020 腾迅广告大赛
- 2020-07-14
- 撰写《深度学习》第 9 章 ( Sec 9.1~9.5 ) 学习笔记
- 2020 腾迅广告大赛
- 整理数据和模型的存放目录
- 尝试深度卷积网络,效果不好
- 2020-07-15
- 撰写《动手学深度学习》第 5 章 ( Sec 5.1~5.4 ) 学习笔记
- 2020 腾迅广告大赛
- 带娃游泳
- 回家休息
- 学习《基于深度学习的自然语言处理》第 13 章
- 2020-07-16
- 撰写《基于深度学习的自然语言处理》第 13 章的学习笔记
- 撰写《动手学深度学习》第 5 章 ( Sec 5.5~5.8 ) 学习笔记
- 2020 腾迅广告大赛
- 训练 Conv1D 不同参数的效果,并且记录
- 2020-07-17
- 2020 腾迅广告大赛
- 提取模型构建函数
- 分析素材编号在整个训练数据中的占比
- 撰写《动手学深度学习》第 5 章 ( Sec 5.9~5.12 ) 学习笔记
- 2020 腾迅广告大赛
- 2020-07-18
- 2020 腾迅广告大赛
- 对比 MySQL 和 MSSQL,对于小数据量、简单数据操作,MySQL 仍是更好的选择
- 2020 腾迅广告大赛
第四周
- 2020-07-19
- 2020 腾迅广告大赛
- 整理字典大小为 384000 的数据
- 阅读《中文自然语言处理导论》
- 2020 腾迅广告大赛
- 2020-07-20
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 导出字典大小为 384000 的数据
- 重构导出部分的代码
- 训练字典大小为 384000 的数据的 word2vec
- 带娃游泳
- 2020-07-21
- 2020 腾迅广告大赛
- 修正导出数据的 SQL 语句中的错误
- 重新训练字典大小为 384000 的数据的 word2vec
- 重构读取数据的代码
- 训练字典大小为 384000 的模型
- 2020 腾迅广告大赛
- 2020-07-22
- 2020 腾迅广告大赛
- 重构 construct_model(),将模型构造部分抽取到函数中
- 重构 build_single_input()
- 重构 build_single_ouput()
- 重构 build_mlp()
- 重构 build_conv1d()
- 重构 build_le_net()
- 重构 build_alex_net()
- 重构 build_vgg(),严重过拟合
- 将模型保存部分抽取到函数中
- 使用全局控制参数控制显示函数
- 重构 construct_model(),将模型构造部分抽取到函数中
- 2020 腾迅广告大赛
- 2020-07-23
- 2020 腾迅广告大赛
- 继续对比不同模型的效果,现在看来 AlexNet 最有潜力
- 撰写《中文自然语言处理导论》学习笔记(C01,C02)
- 2020 腾迅广告大赛
- 2020-07-24
- 2020 腾迅广告大赛
- 编写 build_google_net() 函数,测试不同封装的效果,精度提升明显
- 2020 腾迅广告大赛
- 2020-07-25
- 2020 腾迅广告大赛
- 编写 build_res_net() 函数
- 测试 build_google_net() 函数的不同参数
- 2020 腾迅广告大赛
第五周
- 2020-07-26
- 2020 腾迅广告大赛
- 测试 build_res_net() 函数的不同参数
- 2020 腾迅广告大赛
- 2020-07-27
- 带娃游泳
- 回家休息
- 2020 腾迅广告大赛
- 测试 build_res_net() 函数的不同参数
- 带娃游泳
- 2020-07-28
- 高温,休息
- 2020-07-29
- 2020 腾迅广告大赛
- 编写 fix_7_21 的代码(数据生成、W2V 特征提取、模型训练)
- 2020 腾迅广告大赛
- 2020-07-30
- 高温,休息
- 2020-07-31
- 高温,休息