跳到主要内容

机器学习

机器学习需要解决的问题是,如何利用计算机从数据中学习,以便对未知数据做出预测。机器学习的分类有许多种,这些模型在特定的场景下表现良好,但是没有一种模型能够解决所有的问题。因此,作为初学者,机器学习的核心问题是如何调试并选择合适的模型。

关于机器学习的分类可以参考wiki百科机器学习的分类,在这里可以了解不同模型的大致运作原理。机器学习是一门正在蓬勃发展的学科,因此存在非常强烈的时效性,我推荐的学习方法是,先学习机器学习的基础模型,再根据自己从业的领域专研对应的模型。

数据科学入门

这个部分会介绍一些数据科学的基础知识,包括数据的获取、数据的处理、数据的可视化等。是机器学习的基础,也是数据分析的基础。推荐学习的模块有matplotlib、pandas、numpy等,这部分内容由于并不要求深度掌握,因此教程上跟随官方文档即可。

传统机器学习

市面上机器学习的教程非常多,但大都不够全面、碎片化的同时不易复现、迭代缓慢。

在这里我推荐的教程是Sklearn的官方文档,它是一个开源的机器学习库,提供了大量的机器学习模型,同时提供了大量的教程和实例,可以帮助你快速上手机器学习。

神经网络

神经网络的学习通常是Pytorch或者tensorflow,这两个框架都是非常优秀的框架,作为一个专业学习神经网络的人员来说,学习曲线陡峭并不是一个问题,何况我们已经有了Sklearn作为基础。二者对比文章不计其数,我的选择是推荐tensorflow。

tensorflow的官网教程可称得上是模范教程第一梯队,它的教程从基础到高级都有涉及,而且每个教程都有对应的代码,可以直接运行。网址是https://www.tensorflow.org/tutorials