第一周
- 2020-05-01
- 开启 pandoc 中文说明
- 2020-05-02
- 继续 pandoc 中文说明的翻译工作,选择自己工作中使用到的部分。
- 翻译可以深入了解其中的功能,扩展使用的选择,避免使用过程中的许多笨办法
- 继续 pandoc 中文说明的翻译工作,选择自己工作中使用到的部分。
第二周
- 2020-05-03
- pandoc 中文说明的翻译工作
- 修改 zYxTom.tex 模板
- 实现自定义页头和页脚
- 删除文档中多余的部分
- 实现自定义元数据头,使用 YAML 文件来完成文档格式转换
- 2020-05-04
- 修改 zYxTom.tex 模板
- 奇偶页的页脚中间分别提供 zYx.Tom GitHub Pages 和 zYx.Tom Study Notes
- 在 bat 文件中增加了「提示音」
- 因为 BEL 字符 ( 07 是其 ASCII 码 ) 在 VSCode 的插件 Code Runner 中不出声音,因此将 Code Runner 的运行环境调整为 Terminal 就可以正常发音了。
- 完善 Latex 学习笔记
- 将使用过程中的常见问题进行了列表和说明
- 记录关于页头和页脚的处理问题
- 介绍了 LaTeX 中文处理的主要方法 和 使用场景的简单对比
- 完善 Pandoc 学习笔记
- 安装说明
- 生成文档
- 调试编译
- 修改 zYxTom.tex 模板
- 2020-05-05
- 解决提纲不起作用的问题
- 改成英文标签
- 完成 pandoc 学习笔记
- 增加了 yaml 部分的说明
- 解决提纲不起作用的问题
- 2020-05-06
- 恭喜我的娃成功开学
- 夫妻档修复两个纱窗
- 2020-05-07
- 完成 《PRML》 中的 ( Sec 4.1.2
4.1.7,4.24.2.2 )
- 完成 《PRML》 中的 ( Sec 4.1.2
- 2020-05-08
- 完成 《PRML》 中的 ( Sec 4.2.3,4.2.4; 4.3; 4.4 )
- 完成 《Python 基础教程 ( 第 3 版 ) 》项目库 中的 ( Ch 01; Sec 2.1,2.2 )
- 2020-05-09
第三周
- 2020-05-10
- 完成 《机器学习。西瓜书》 中的 ( Ch 01 )
- 完成 《数学解的分类》
- 2020-05-11
- 完成 《机器学习。西瓜书》 中的 ( Sec 3.1,3.2 )
- 修改页面字体,从 em 改为 px,效果更加准确
- 面试交流
- 2020-05-12
- 完成 《机器学习。西瓜书》 中的 ( Sec 3.3~3.7 )
- 完成 《统计学习基础。小蓝书》 中的 ( Sec 6.1 )
- 2020-05-13
- 完成 《统计学习基础。小蓝书》 中的 ( Sec 4.1; Sec 6.2,6.3; Appendix C )
- 2020-05-14
- 完成 《统计学习基础。小蓝书》 中的 ( Sec 4.2 )
- 完成 《机器学习。西瓜书》 中的 ( Ch07 )
- 完善 机器学习。知识体系 中的 ( 数学部分,机器学习之回归问题 )
- 2020-05-15
- 完善 算法工程师技能表 中的 ( 算法工程师技能图; 算法工程师分类和技能列表; 模式识别流程图 )
- 完成 《模式识别 ( 第二版 ) 》 中的 ( Ch01; Sec 2.1; Sec 3.1,3.2 )
- 完成 《Python 基础教程 ( 第 3 版 ) 》项目库 中的 ( Sec 2.3~2.5 )
- 2020-05-16
- 简化 算法工程师技能表 中的 ( 工程师分类说明 )
- 完成 《模式分类 ( 第 2 版 ) 》 中的 ( Sec 5.1~5.3 )
- 整理 机器学习面试习题集
- 完善 分类问题-PPT 中的 ( 线性判别函数 )
- 进一步完善 Pangu-Markdown-VScode 插件,发布 V0.1.4 版本
- 安装请到 VSCode Market
第四周
- 2020-05-17
- 完成 《模式分类 ( 第 2 版 ) 》 中的 ( Sec 5.4 )
- 面试准备,打印文档 ( 算法工程师技能表 , 回归问题-PPT )
- 2020-05-18
- 公司面试,回家总结 面试习题集
- 2020-05-19
- 完善 面试习题集 中的问题
- 特征选择的方法
- 欠拟合与过拟合
- 决策树的启发函数
- KNN 和 K-Means
- SVM 和 Logistic
- 「懒惰学习」和「急切学习」
- 数据预处理
- 数据归一化
- 完善 面试习题集 中的问题
- 2020-05-20
- 完成 《PRML》 中的 ( Sec 14.1,14.2 )
- 写完的文档 Check In 之后就找不到了,还需要加强对 Git 的理解
- 完成 《PRML》 中的 ( Sec 14.1,14.2 )
- 2020-05-21
- 完成 《PRML》 中的 ( Sec 14.3 )
- 2020-05-22
- 完成 《统计学习基础。小蓝书》 中的 ( Sec 8.1,8.2 )
- 完善 《PRML》 中的 ( Sec 14.3 )
- 2020-05-23
第五周
- 2020-05-24
- 完善 《PRML》 中的 ( Sec 5.2.2~5.2.4 )
- 参加腾迅广告大赛
- 准备环境:TIONE 计算环境
- 准备数据:下载和分析数据分布
- 准备 MySQL DB,方便数据分析和处理
- 建立最终数据表,建立索引,将数据处理速度提升了 300 倍
- 了解赛程:组织队员、提交时间
- 2020-05-25
- 参加腾迅广告大赛
- 新增的
code
字段基于「gender」和「age」生成 1-of-K 编码 - 导出正确数据 ( 没有遗失数据 ) 的输入数据 ( X ) 和目标数据 ( y ) 供训练
- 准备了 700 万,300 万,200 万,100 万,70 万,30 万 正确数据准备训练
- 新增的
- 撰写 MySQL 的学习笔记
- error 1206
- startup and shutdown service
- 准备 Keras 训练平台
- 再次理解 多分类问题
- 参加腾迅广告大赛
- 2020-05-26
- 参加腾迅广告大赛
- 最初在数据库中将数据归一化,然后发现数据的归一化工作应该在分割了数据集以后再做,因此只能在程序中完成数据归一化
- 开辟了新的 PyCharm 项目,专门针对比赛编写 MLP 训练
- 使用 pandas 读入 csv 文件,定义读入字段的类型
- 将数据乱序排列,再进行分割
- 将训练数据和测试数据归一化,将 np.array ( ) 数组重新设置为 np.float64 类型
- 重构 《Python 深度学习》 项目中的 ch0305.py
- keras 转换到 tensorflow.keras
- 正确说明输入数据中每篇文章的「向量化」,而不是某个字段的向量化,即输入数据和目标数据向量化的区别
- 正确的配置模型参数,因为是多分类问题,需要使用 categorical_accuracy,明白了 binary_accuracy 与之的区别,即二分类问题与多分类问题的区别,也得到了网络训练的正确的精确度
- 修正了验证数据集与训练数据集的关系
- 重新测试不同单元数目的网络效果:基本没有改变
- 参加腾迅广告大赛
- 2020-05-27
- 参加腾迅广告大赛
- 完成 MLP 模型,训练 30万数据,20个类别精确度在 15%,10个类别精确度在 22%
- 重写了 load_files(),读入的 DataFrame 需要做后期处理,因此放在主程序中
- DataFrame 可以像 SQL 语句那样使用,注意平衡 DataFrame 与 MySQL 之间的区别,平衡使用这两个工具
- 使用sklearn 的 train_test_split() 和 MinMaxScaler()
- 比自己考虑的更加完善
- 暂时没有进行 归一化 好像没有影响结果
- 参加腾迅广告大赛
- 2020-05-28
- 参加腾迅广告大赛
- 与团队成员沟通了 4个小时,团队沟通非常重要
- 在 GitHub 建立私有项目,大家基于 GitHub 进行协作
- 删除无用代码
- 代码增加注释
- 代码错误修改
- 规范化文件命名
- 建立 Tasks.md 文件,对工作内容进行记录和跟踪
- 统一数据文件说明头
- 记录数据权重说明
- 权重列表
- 素材与广告的关联
- 素材与广告的关联的散点图
- 参加腾迅广告大赛
- 2020-05-29
- 参加腾迅广告大赛
- 将标签数据(xxx_id)转化为频率数据(每个 id 数据统计/总数据量),测试结果依然无用
- 对统计数据绘制三维图像进行分析,发现数据重叠,无法进行有效分离
- 庆祝乖乖加入中国少年先锋队
- 参加腾迅广告大赛
- 2020-05-30
- 给奶奶买东西
- 与团队成员沟通 NLP 方法处理
- TFIDF
- Word2Vec
- 给 PyCharm 安装 Database Browser 插件
- 插件容许导出数据为 CSV 格式
- 观察数据中不同字段的对应关系
第六周
- 2020-05-31
- [基于深度学习的自然语言处理](Ch01, Sec 2.1, 2.2, 2.4, Sec 8.1)