一、使用的技术栈: 爬虫:python27 requests json bs4 time
分析工具: ELK套件
开发工具:pycharm 二、数据成果
爬取了知乎部分的用户数据信息。
三、简单的可视化分析
1.性别分布 0 绿色代表的是男性 ^ . ^
1 代表的是女性... 拈花古佛 8年前 (2017-07-10) 9872℃ 0评论 1喜欢
动态语言Ruby、Python都有自己的虚拟环境,虚拟环境是程序执行时的独立执行环境,在同一台服务器中可以创建不同的虚拟环境供不同的系统使用,项目之间的运行环境保持独立性而相互不受影响。例如项目A在基于Python2的环境中运行,而项目B可以在基于Python3的环境中运行。Py... 拈花古佛 8年前 (2017-05-29) 8194℃ 0评论 0喜欢
Jumpserver 是一款由Python编写开源的跳板机(堡垒机)系统,实现了跳板机应有的功能。基于ssh协议来管理,客户端无需安装agent。 特点:
完全开源,GPL授权
Python编写,容易再次开发
实现了跳板机基本功能,认证、授权、审计
集成了Ansible,批量命... 拈花古佛 8年前 (2017-05-20) 10883℃ 0评论 0喜欢
早期经常有人问我学习编程语言应该从哪一门入手,我一般会推荐 Java 和 Python,这两门分属静态语言和动态语言,应用广泛,上手方便,上能九天揽月,下可五洋捉鳖,能写出小工具小网站,也构建出世界级的大型互联网帝国,比如淘宝,比如豆瓣。我一般很少推荐 C 或者 C 这种前进的... 拈花古佛 8年前 (2017-04-13) 8198℃ 0评论 0喜欢
不要让服务器裸奔
学过PHP的都了解,php的正式环境部署非常简单,改几个文件就OK,用FastCgi方式也是分分钟的事情。相比起来,Python在web应用上的部署就繁杂的多,主要是工具繁多,主流服务器支持不足,在了解Python的生产环境部署方式之前,先明确一些概念!很重要!... 拈花古佛 9年前 (2015-11-18) 7789℃ 0评论 0喜欢
有很多开源的网络爬虫,如果我们掌握某一种或多种开源的爬虫工具,再我们获取数据的道路上会如虎添翼,事半功倍。这里我介绍一下我对于Scrapy网络爬虫的学习和搭建。
首先安装scrapy。在Windows和Linux下各有不同的办法,推荐在Linux下使用。
安装好了scrapy环境... 拈花古佛 9年前 (2015-08-31) 8299℃ 0评论 0喜欢
一 module
通常模块为一个文件,直接使用import来导入就好了。可以作为module的文件类型有”.py”、”.pyo”、”.pyc”、”.pyd”、”.so... 拈花古佛 9年前 (2015-08-16) 8264℃ 0评论 0喜欢
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端、服务器端,甚至数据库(MongoDB)开发,一个Web应用开发人员,只需要学会一门语言,就可以实现整个应用。
受此启发... 拈花古佛 10年前 (2015-08-04) 8057℃ 0评论 0喜欢
pipy国内镜像目前有:
http://pypi.douban.com/ 豆瓣
http://pypi.hustunique.com/ 华中理工大学
http://pypi.sdutlinux.org/ 山东理工大学
http://pypi.mirrors.ustc.edu... 拈花古佛 10年前 (2015-08-02) 13917℃ 0评论 1喜欢
为了能够将爬取到的数据存入本地数据库,现在本地创建一个mysql数据库example,然后
在数据库中建立一张表格douban_db,示例如下:
CREATE TABLE `douban_db` (
`url` varchar(20) NOT NULL,
`direc... 拈花古佛 10年前 (2015-07-25) 13991℃ 1喜欢