Java爬虫框架-WebMagic挖坑补坑指南
以前总是用的Python下的Scrapy和crawley和PHP的小众爬虫框架,最近突然想到了何不用下Java下的框架试试?查了下Java下的爬虫框架自然也不在少数,Nutch,WebMagic,WebCollector,这三个绝对是够用了,爬一般的网站不在话下,至于遇到那些爬取频次限制,前端JS渲染(AngularJS),各种识别码之类的这都都是爬虫的老问题了,作为成熟的爬虫框架,解决办法应该也
以前总是用的Python下的Scrapy和crawley和PHP的小众爬虫框架,最近突然想到了何不用下Java下的框架试试?查了下Java下的爬虫框架自然也不在少数,Nutch,WebMagic,WebCollector,这三个绝对是够用了,爬一般的网站不在话下,至于遇到那些爬取频次限制,前端JS渲染(AngularJS),各种识别码之类的这都都是爬虫的老问题了,作为成熟的爬虫框架,解决办法应该也
在前面一篇文章里面我讲到了使用NextCloud在Windows平台下使用,但是在Mac下如何才能进行无缝的使用呢。Keepass本身是没有Mac版的。官方在下载页说的是在Linux和OS X下使用Mono运行,总所周知,Keepass是使用.net编写的,可以使用Mono进行跨平台使用,但是那货效率实在是太低了,我以前写.net的时候还真用过,如此糟糕的用户体验还是算了。我在Windows平台上
我觉得我能够利用半个月的时间从重庆到拉萨,再从格尔木,兰州返回,甚是有意,我以前觉得是没有想过的,我想那也是不可能实现的,我曾经也因为“根本不可能去”而始终没有过类似的想法,是这次旅行让我真正理解一些以前无法接受的思想,并接受这一切。
今年的早些时候,我在闲鱼上面入手了一个摩托罗拉GP88s,完全是为了充值信仰。我买的那台对讲机是一台垃圾成色的机器,并且不是众所周知的马来西亚生产的,是一台纯正的中国生产的机器。之所以买,原因就很多了,除了上面提到的为了信仰,我去年的时候买了一台八重洲的VX-6R,但是作为这么贵的HAM机器,居然会出现滤波发霉的通病,简直有点想不通。那个时候就有朋友给我推荐说可以考虑下摩托罗拉的机器,质量更加可靠
最近正好有一台腾讯云的服务器闲置中,平时我也是将这个服务器作为备用服务器,很多时候不是在测试,就是闲着在挂机,再加之以前在qiandao.today上的签到由于大规模的签到IP都是同一IP,容易发生签到失败的问题。Docker对于我来说仅仅是减少了应用的环境配置时间,对我来说要对项目进行转换花费的时间是很多的。闲着也是闲着,倒不如拿来折腾,于是乎就有了本篇文章的搭建签到站,至于使用Docker也是
先说说改造这个电源的起因,算是自己没事找事做。偶得一套清华同方的品牌机,性能虽然说不是怎么特别好,但是平时使用,或者用于写代码还是挺不错的,原机是英特尔I5 6400的处理器,以前有一块I5 6500的处理器,使用良好。6400频率只低了0.5,所以使用上应该没有什么大的问题。 硬盘砸沱茶,配图与本文无关。显卡的话自带的是一块索泰的被动式散热的GT730 1G版内存条是三星原厂4G DDR4 21
最近几年网络安全问题层出不穷,各种网站服务器的数据库泄露频发,在前几年,可能我们的网上账户的数量并不多,但是现在随着我们的网络服务越来越多,我们的账户也越来越多,并且现在的国内网站都要求对于网站的注册使用需要进行实名认证,网站账户的价值已经不能等同于以前小号满天飞的时代了。
家里有个闲置着的派,以前用来架设Resilio Sync,用于存放自己的一些常用到的文件,但是因为前段时间的某种不可抗力的原因,Resilio Sync在国内的中继服务器出现了问题,所以我就暂时没有使用了。本来考虑使用Resilio Sync的开源替代品Syncthing,但是我的文件中零散的文件过多,派的性能并不能很好的发挥,也只能作罢,闲置了一段时间。 我使用的设备并不是树莓派,而是深圳的