付费研究的大数据负载优化开发项目 ~ 混世魔王

国内严打又来了虽然一直都不碰国内的，看资讯，严打又来了。搞外国的也顺带休息了。

http://www.miit.gov.cn/n11293472/n11293832/n12843926/n13917072/15567197.html

今年据说是公安部常务副部长还是第三位的副部长领衔的专治行动

咨询了下那边的人，说今年专打国内，不管有没有涉及经济利益，擦边就要抓刚好忙着研究几个技术，和写《精通linux渗透》，喜欢研究技术的朋友，可以私底下交流。提出一个技术难点，千万的内容，要把内容进行自动分类，相关分类，不考虑特大流量的情况下（1-10W以内），尽量在1台服务器实现，是你如果架构和开发语言。（参考资料：sphinx，分表，中英分词，MONGDB，文件存储，缓存，等）目前已有一个解决方案

继续征集。
1.先写了一个 PY的脚本抓取所有的URL。
2.写采集规格把抓取的URL，采集入库。（有点火车头的节奏）
3.查询用 SPHINX 做接口。其他的内容，用CACHE 做缓存。用伪静态处理URL.
同类分词算法
ID:1 AAA熊面膜
ID:2 BBB熊面膜
ID:3 CCC熊面膜
这样算法就会认为 “熊面膜” “熊” “面膜”“面” “膜”
在这3列，都出现过。不管语言通顺。都归类到一起。
在出现熊关键字，就会输出， “熊面膜” 和 “熊” 的分类内容

混世魔王

付费研究的大数据负载优化开发项目

没有评论:

发表评论

热门博文

Follow Us

FOLLOW US

Categories

Blog Archive

博客归档

Hashtag

Comments

Search This Blog

Tags

Footer Menu Widget

Social Footer Widget

Social Plugin