DGA聚类 使用DBScan

features = sc.parallelize(data_group[idx]).map(lambda x: (x.host_ip+'^'+x.domain, 1)).reduceByKey(operator.add).map(get_domain_features)

 

def get_domain_features(x):
    host_url = x[0].split('^')
    host = host_url[0]
    url = host_url[1]
    ext = tldextract.extract(url)
    if ext.domain == "":
        domain = ext.suffix
    else:
        domain = ".".join(ext[1:])

    main_tag = domain.split('.')[0]
    num = [i for i in main_tag if i.isdigit()]
    alp = [i for i in main_tag if i.isalpha()]

    return (host, (url, domain, main_tag), x[1], len(url), url.count('.') + 1, domain.count('.') + 1, len(main_tag), __Weight(main_tag), __Weight(num), __Weight(alp), main_tag.count('-'))

posted @   bonelee  阅读(543)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
点击右上角即可分享
微信分享提示