付费研究的大数据负载优化开发项目

国内严打又来了虽然一直都不碰国内的,看资讯,严打又来了。搞外国的也顺带休息了。
http://www.miit.gov.cn/n11293472/n11293832/n12843926/n13917072/15567197.html
今年据说是公安部常务副部长还是第三位的副部长领衔的专治行动
咨询了下那边的人,说今年专打国内,不管有没有涉及经济利益,擦边就要抓刚好忙着研究几个技术,和写《精通linux渗透》,喜欢研究技术的朋友,可以私底下交流。提出一个技术难点,千万的内容,要把内容进行自动分类,相关分类,不考虑特大流量的情况下(1-10W以内),尽量在1台服务器实现,是你如果架构和开发语言。(参考资料:sphinx,分表,中英分词,MONGDB,文件存储,缓存,等)目前已有一个解决方案

继续征集。
1.先写了一个 PY的脚本抓取所有的URL。
2.写采集规格把抓取的URL,采集入库。(有点火车头的节奏)
3.查询用 SPHINX 做接口。其他的内容,用CACHE 做缓存。用伪静态处理URL.
同类分词算法
ID:1 AAA熊面膜
ID:2 BBB熊面膜
ID:3 CCC熊面膜
这样算法就会认为 “熊面膜” “熊” “面膜”“面” “膜”
在这3列,都出现过。不管语言通顺。都归类到一起。
在出现 熊关键字,就会输出, “熊面膜” 和 “熊” 的分类内容

没有评论:

发表评论

Follow Us

FOLLOW US

Blog Archive

Comments

Blogger 提供支持.

Search This Blog

Tags

header ads