一立方米

第一次的机器学习：机器学习基础概念和名词

发布于2017-07-30# 知识课堂

尽管机器学习从分类上而言只是人工智能（也就是常说的AI）的分支之一，但其本身也是一个相当巨大的命题。在未来的一段时间里，我将花时间在专栏写一些我比较熟悉的机器学习相关的概念和算法，最主要的目的是为了梳理自己的知识体系，也是希望和大家分享学习的历程和感悟，以达到交流的目的。这两年大数据火了，机器学习、神经网络、数据挖掘、强化学习等等这些名词都火了，然而我常常在想，把这些名词挂在嘴边的我们，究竟能否在这个领域飞速发展的情况下，清楚地了解到自己说的每一个名词——谁是谁的分支，哪个和哪个又是同等关系或是没有关系的——在名词爆炸的状态下，想学什么，了解其基础概念是必不可少的。与数据相关的概念假如我们有一组天气数据，是来自全世界不同国家和地区的每日天气，内容包括最高温度、最低温度、平均湿度、风速之类的相关数据，例如数据的一部分是这样的：城市最高温度最低温度相对湿度某时刻风速

猴子都能学会的20行代码登录微博

发布于2017-07-14# 知识课堂

如何登录新浪微博是令许多数据新手（包括我）头疼的大问题。由于新浪的反爬虫策略，网上的教程往往撑不过几个月，查阅到的资料在半年前或是一年前——而它们早就无法使用了，在你想开始爬虫的时候被活生生卡在了第一步。简单而言，我使用的方法是通过 Selenium 模拟浏览器的行为，直接在浏览器中输入用户名和密码并登录，然后直接从浏览器中获取 Cookies。虽然听起来十分简单（实际上也十分简单），但是确实是十分有效的方式。只要一个网站能通过浏览器登陆，我们就可以简单改造这个程序来登录并获得想要的资料。什么是Selenium？如何使用？ Selenium 是一个项目的名称，都与浏览器和网页测试相关。主要的工具也就是今天我们所要使用的，是WebDriver，是一个浏览器自动化工具。它为很多不同的语言提供了库，包括 Python、Java、Ruby 等。本文中我选择使用 Python 来进行操作，当然你

youtube-dl：一个命令行视频下载利器

发布于2017-07-06# 软件推荐

youtube-dl 的官网：http://rg3.github.io/youtube-dl/index.html youtube-dl 的 GitHub 页面：https://github.com/rg3/youtube-dl（喜欢的话给作者star哦~） Youtube-dl 有什么用？ youtube-dl 是一个命令行工具，对我所知的大部分视频网站有不错的支持，你可以选择下载视频，或是将视频流直接导出到自己想使用的播放器中，也可以以JSON的形式获取可下载资源的URL。使用方便、足够简洁，这是我在这里推荐的理由。安装 Youtube-dl Youtube-dl 通过 PyPi 分发，如果你的系统安装有 pip3 或 pip ，请直接使用： sudo pip install --upgrade youtube_dl # 或pip3 如果你是 macOS 用户，也可以使用： br

从零开始微信机器人（四）：监控机器人程序

发布于2017-06-26# 知识课堂

由于使用网页版微信，机器人往往不能够永远地在线。如果无法一直在线，也就失去了自动回复程序的意义。在此，我们使用两种方式来监控机器人程序：自动定时发送消息使用supervisor进行监控自动发送消息准备如果需要定时发送消息，使用sleep方式来等待计时会阻塞线程，因此我们会使用threading来进行多线程的操作。把一个线程分配给自动给特定人发送微信消息。定义自动发送消息的方法在进行多线程操作之前，我们先定义一个自动发送消息的方法以备调用： def send_online_notification(name): my_friend = ensure_one(bot.search(name)) while True: my_friend.send('Hello!') # 你想发送的消息 time.sleep(3600) # 一小

从零开始微信机器人（三）：表情机器人的制作

发布于2017-06-25# 知识课堂

本篇的诞生来自于一朋友制作的表情机器人。当时觉得十分有趣，也希望加入到群聊机器人中，因此就向他讨要了源代码并制作了表情功能。在此我也再次感谢吴毅凡同学的协助！准备工作由于需要读取网页内容，本文中由于我个人偏好使用xpath来选择网页中元素，使用了lxml包，安装的话需要： pip install lxml 如果你想要使用BeautifulSoup来处理网页，请安装： pip install beautifulsoup4 使用斗图啦搜索表情由于斗图啦是明文传输数据搜索的，我们可以简单地通过 res = requests.get('https://www.doutula.com/search', {'keyword': keyword}) 来获取关键词keyword的搜索结果页面。本例中我使用xpath来选择元素，其具体教程你可以查看这里。如果你想使用BeautifulSoup，