<!--=============================================================================
# FileName: README.md
# Desc:
# Author: lizherui
# Email: [email protected]
# HomePage: https://github.com/lizherui
# Version: 0.0.1
# LastChange: 2013-04-07 13:53:50
# History:
=============================================================================-->
weibo_python
============
###介绍
毕业设计中基于给定微博数据进行垃圾微博识别
###进度
对MICRO_BLOG.txt解析完毕
总天数:370
总微博数量:2056089
总垃圾微博数量:300555
###程序运行的方法
python main.py
###目录结构
conf: 项目配置
data: 原始数据文件,未上传到github
export: 程序输出文件
main.py: 主程序
###垃圾微博判定策略
某个用户在30秒内连续发布15条微博,则命中垃圾微博策略
命中后,垃圾行为映射表中该用户对应次数+1,垃圾微博映射表中命中的所有微博对应出现次数+1
每次命中策略结束时清空该用户对应的15条微博信息,重新记录
###输出文件的格式说明
blog_blacklist.txt:垃圾微博内容,出现总次数
blog_length:微博长度,出现总次数
blog_length_stats:微博长度均值,微博长度方差
user_blacklist.txt:用户名,用户昵称,发布垃圾微博的行为总次数
user_everyday_blogs.txt:用户名,用户昵称,每天发布的微博数量
user_everyday_blogs_stats.txt:用户名,用户昵称,基于总天数的发布微博数量的均值和方差,除去未发布任何微博的日期后得到的数量的均值和方差
user_everyday_trush_blogs.txt:用户名,用户昵称,每天发布的垃圾微博数量
user_everyday_trush_blogs_stats.txt:用户名,用户昵称,基于总天数的发布垃圾微博数量的均值和方差,除去未发布任何垃圾微博的日期后得到的均值和方差
user_total_blogs.txt:用户名,用户昵称,用户发布的微博总数量和所占比率
###微博内容分类与比例
####名人名言
实例:真正的信仰是建立在岩石上的,而其他的一切都颠簸在时间的波浪上.
总微博中所占比例:60%
垃圾微博中所占比例:75%
####节日祝福
实例:祝大家七夕节快乐
总微博中所占比例:20%
垃圾微博中所占比例:10%
####社会事件
实例:风雨同‘舟’、威武不‘曲’,中国加油!舟曲加油!
总微博中所占比例:15%
垃圾微博中所占比例:10%
####励志故事
实例:产品常不守时。这些日本公司就派人整天待在微软,督促盖茨务必准时交货。盖茨一度还很不理解。后来,盖茨认识了和他同龄的日本计算机界天才西和彦,并成为莫逆之交。微软也于1977年进军日本市场,西和彦一度当上微软的副总经理,他向盖茨讲述了很多在日本做生意的要领:(1)日本人讲究信誉;
总微博中所占比例:5%
垃圾微博中所占比例:5%
============

智慧安全方案
- 粉丝: 3927
最新资源
- 该项目为一个集数据抓取与展示一体的ACM队员数据系统,基于Django、python实现。.zip
- 辅助背单词软件,基于艾宾浩斯记忆曲线(其实背啥都行)的Python重构版,增加在线查词与翻译等功能.zip
- 基于C开发的命令行输入输出流重定向与实时分析工具_支持快捷按键和文本框输入实时过滤计算分析多格式结果呈现文本提示弹窗曲线表格支持批量测试和日志抓取_用于开发调试协议分.zip
- 各种有用的web api 基于Golang, Python(tornado django scrapy gevent).zip
- 华南理工大学找到卷王,基于 Python 的综测系统数据爬虫.zip
- 湖南大学(HNU)数据库系统课程大作业 ATM系统 前端基于Python的PyQt5,后端基于MySQL.zip
- (新闻爬虫),基于python+Flask+Echarts,实现首页与更多新闻页面爬取
- 基于 Flask + Requests 的全平台音乐接口 Python 版.zip
- 基于 FFmpeg ,使用 Python 开发的批量媒体文件格式转换器。.zip
- 基于 CAI 的 OneBot Python 实现.zip
- 基于 nonebot2 开发的消息交互式 Python 解释器,依赖 docker SDK.zip
- 基于 Python 3 + Django 2 开发的用于适配手机的简单 Jenkins 构建平台.zip
- Python 语言的爬楼梯问题实现-计算爬到第 n 级台阶的方法数
- 基于 Napcat, NcatBot, JMComic-Crawler-Python 的 QQ 机器人。.zip
- 基于 Python Tornado 的博客程序 (练习).zip
- 基于 Python 3.5 + Django 2.0 开发的简单个人博客.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


