本文记录了我对owllook.net这一网络小说搜索引擎的推荐系统的分析与设计过程。这个项目是开源项目,地址在owllook repo,目前已经积累了一定的数据量,需要一个靠谱的推荐系统。注意我用到的数据是内部数据,并没有开源。
本文使用推荐算法包括:基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、基于流行度的推荐、随机推荐、基于用户标签相似度的推荐等算法。通过对比发现基于用户标签相似度的推荐算法表现效果最佳,目前已经将该算法在线上使用。
本文记录了我对owllook.net这一网络小说搜索引擎的推荐系统的分析与设计过程。这个项目是开源项目,地址在owllook repo,目前已经积累了一定的数据量,需要一个靠谱的推荐系统。注意我用到的数据是内部数据,并没有开源。
本文使用推荐算法包括:基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、基于流行度的推荐、随机推荐、基于用户标签相似度的推荐等算法。通过对比发现基于用户标签相似度的推荐算法表现效果最佳,目前已经将该算法在线上使用。
项亮的《推荐系统实践》是一本面向推荐系统初学者的好书。这本书中间花了不少的篇幅去介绍了推荐系统中很重要的一个算法:协同过滤。囿于书中的篇幅限制,作者只给出了核心部分的代码。基于此书内容,我动手实现了基于用户的协同过滤算法和基于物品的协同过滤算法,并在MovieLens数据集上做了测试,效果令人满意。现在总结一下自己对协同过滤系统的理解和动手实践过程的经验。
本电影推荐系统已开源在:https://github.com/fuxuemingzhu/MovieLens-Recommender
如果问大家离开北邮最不舍的东西是什么?很多人肯定会脱口而出:北邮人BT!显然,北邮人BT已经融为每个BYR生活的一部分了。那么就从这个网站下手,练一练Python的爬虫吧。
很早之前写这篇文章时,对下载北邮人BT的资源的理解是先通过模拟北邮人BT登录,然后用代码下载资源。现在觉得这么做太复杂了,所以这篇文章就改成用python模拟登录北邮人BT的教程吧。
最近有了审美强迫症,不仅让自己的Ubuntu变得很酷炫,还想把自己的博客变得更吸引眼球。调了两三天的博客,只为让博客变得更美。
记录一下我的调整的地方,也为了让大家更能看到我博客的亮点。
模拟登录北邮人论坛可能是每个学着写爬虫的北邮人必备技能了。在网上和论坛上也有相关资料,但质量参差不齐,有些甚至不能实现模拟登录。因此,这里我使用requests库和urllib2库两种方法,分别实现了北邮人论坛的模拟登录。
教程所需环境:
为什么要开这篇文章?就是因为我这两天已经被Hexo折腾得够呛!
诚然,Hexo一键部署博客给写作带来了很大的便利,但是不可否认的是,Hexo的错误让人摸不到头脑,只有反复尝试才能得出正确结果。
因此,奉劝大家,不要瞎升级Hexo!不要瞎改动Hexo!不要瞎折腾Hexo!
这里记录下我踩过的各种坑,留给大家排坑,也方便自己以后查找问题。
不知不觉已经离开一年多了,现在的我已经是准研究生一枚了,于是重新拾起了这个博客~~
原来我去年就已经申请到了GitHub的student pack,这样的话我就能用了Digital Ocean的服务器50元的代金券,还有免费一年的.me的域名了。哈哈哈哈~~
租了一台Digtial Ocean的服务器,成功的搭建了ss,现在通过ipv6访问外网的速度达到了12M/s,看国外视频都是1080p还不卡的,果然还是自己做来的比较爽呀,中间还学到了很多故障处理的方式。
之前租过两台服务器,分别是阿里云和腾讯云,但我都没用过……就在那里闲着感觉很浪费啊,这个DO服务器已经开始用来走ss啦,还是挺有用的,另外这个博客也是搭建在上面的。
顺便做个小广告吧,欢迎大家使用我的推荐码注册DO啊,这样你可以得到10美元的代金券,我也能赚到一点,嘻嘻,就是这个链接:https://m.do.co/c/86d4e56f6c7a
凡是使用上面这个链接注册DO服务器的,我教你怎么搭建SS科学上网~~
喔喔,如果不想自己购买服务器还想畅快的科学上网的,直接给我发邮件,我给你开个账号也就行啦,费用好说好说~~
欢迎大家来我的博客里赏光哈,如果想联系我,可以从导航栏里看到“关于我”就行啦~
这是一份阶段性总结。虽然并没有明显的分界线,但我感觉过了这么久,总该写点什么吧,给以后的自己看。碰巧也遇到不少烦心事,闲着也是闲着,趁这种干不了其他事的时候自己反思一下自己罢。
这是篇给自己看的保留文章,完全是想到哪写到哪,特别没意思,游客止步吧。