【免费】毕业设计,旅游景点评论情感分析包含携程，马蜂窝爬虫，Adaboost+bayes分类.zip资源-CSDN下载

共102个文件

py：32个

pyc：23个

vue：10个

毕业设计

爬虫

需积分: 0 126 浏览量更新于2023-09-29 5 收藏 47.71MB ZIP 举报

该毕业设计项目主要聚焦于旅游景点评论的情感分析，利用了数据爬取技术和机器学习算法来理解和判断用户对旅游景点的评价是正面还是负面。在这个项目中，你可以学习到以下关键知识点： 1. **数据爬虫**： - **网络爬虫原理**：网络爬虫是一种自动化程序，用于抓取互联网上的公开数据。它遵循HTTP协议，模拟用户行为发送请求并接收响应。 - **Python爬虫框架**：项目可能使用了Python的Scrapy或BeautifulSoup等库来实现爬虫。Scrapy是一个强大的爬虫框架，适合大型项目的数据抓取；BeautifulSoup则适合简单的HTML解析。 - **携程与马蜂窝API**：可能涉及到对这两个网站的评论API的直接调用，或者解析网站HTML结构来获取评论数据。 2. **数据预处理**： - **文本清洗**：去除评论中的无关字符、HTML标签、特殊符号等，为后续分析做好准备。 - **分词**：将评论文本转化为词汇列表，常用工具如jieba分词库在中文处理上表现优秀。 - **停用词过滤**：去除“的”、“是”等无实际含义的词汇，减少噪声。 - **词干提取**：通过词形还原或词根化，如将“好看”、“好看的”都转化为“好”。 3. **特征工程**： - **词频统计**：计算每个词在所有评论中出现的频率，作为特征。 - **TF-IDF**：使用TF-IDF方法量化词语的重要性，它考虑了词频和逆文档频率。 - **情感词典**：可能利用预先构建的情感词典（如SentiWordNet、SnowNLP）来评估评论的情感极性。 4. **机器学习算法**： - **Adaboost**：Adaboost是一种集成学习方法，通过迭代训练弱分类器并组合它们形成强分类器。它可以有效地处理不平衡数据集。 - **贝叶斯分类**：朴素贝叶斯分类是基于贝叶斯定理的一种简单但有效的分类方法，假设特征之间相互独立。 - **模型训练与评估**：使用交叉验证进行模型训练，通过准确率、精确率、召回率和F1分数等指标评估模型性能。 5. **数据可视化**： - **评论情感分布**：可能用Matplotlib或Seaborn库绘制条形图或饼图，展示评论的情感分布。 - **特征重要性**：展示Adaboost中各个特征对模型预测的影响。 6. **项目实施流程**： - **数据收集**：运行爬虫程序获取携程和马蜂窝的评论数据。 - **数据预处理**：清洗和转换数据，使其适合作为机器学习输入。 - **特征工程**：构造有助于情感分析的特征。 - **模型构建**：训练Adaboost+bayes分类器。 - **模型评估**：测试模型的性能并进行调优。 - **结果解释**：分析模型预测结果，理解影响情感分析的因素。这个项目为初学者提供了完整的从数据获取到模型构建的实际操作经验，有助于提升数据分析和机器学习技能。同时，对于已经有一定经验的开发者来说，也是深入理解和应用这些技术的好案例。

收起资源包目录

毕业设计,旅游景点评论情感分析包含携程，马蜂窝爬虫，Adaboost+bayes分类.zip （102个子文件）

.editorconfig 147B

.gitignore 496B

.gitignore 108B

.gitkeep 0B

index.html 2KB

result.html 2KB

index.template.html 991B

favicon.ico 63KB

light.jpg 418KB

quasar.conf.js 7KB

axios.js 1KB

index.js 1000B

routes.js 737B

babel.config.js 244B

.postcssrc.js 200B

package.json 990B

jsconfig.json 565B

extensions.json 276B

settings.json 95B

yarn.lock 267KB

README.md 2KB

README.md 458B

README.md 371B

index.png 591KB

dark.png 349KB

favicon-128x128.png 12KB

favicon-96x96.png 9KB

favicon-32x32.png 2KB

favicon-16x16.png 859B

bayes_train.py 11KB

AdaBoost_train.py 10KB

xc_utils.py 8KB

views.py 5KB

settings.py 4KB

mfw_utils.py 3KB

0001_initial.py 2KB

models.py 2KB

urls.py 799B

manage.py 660B

utils.py 622B

0006_original_product_spyder_date.py 505B

0004_picture_hash.py 500B

0005_original_comments_tokscore.py 467B

0003_alter_original_comments_comment_content.py 456B

0002_alter_original_comments_commentid.py 432B

urls.py 411B

wsgi.py 385B

asgi.py 385B

TimeFormat.py 256B

proxy.py 223B

apps.py 157B

admin.py 63B

tests.py 60B

__init__.py 43B

__init__.py 0B

xc_utils.cpython-39.pyc 5KB

settings.cpython-39.pyc 2KB

views.cpython-39.pyc 2KB

models.cpython-39.pyc 2KB

0001_initial.cpython-39.pyc 2KB

urls.cpython-39.pyc 974B

manage.cpython-39.pyc 806B

0003_alter_original_comments_comment_content.cpython-39.pyc 700B

0002_alter_original_comments_commentid.cpython-39.pyc 669B

proxy.cpython-310.pyc 548B

proxy.cpython-39.pyc 546B

wsgi.cpython-39.pyc 543B

urls.cpython-39.pyc 465B

apps.cpython-39.pyc 445B

TimeFormat.cpython-39.pyc 385B

admin.cpython-39.pyc 196B

__init__.cpython-39.pyc 195B

__init__.cpython-310.pyc 188B

__init__.cpython-39.pyc 186B

__init__.cpython-310.pyc 182B

__init__.cpython-39.pyc 180B

__init__.cpython-39.pyc 166B

__init__.cpython-39.pyc 144B

quasar.variables.scss 808B

app.scss 31B

quasar-logo-vertical.svg 4KB

quasar.d.ts 397B

dict.txt.small.txt 1.48MB

stop.txt 6KB

requirements.txt 4KB

end.vue 14KB

barChart.vue 4KB

PieChart.vue 4KB

Result.vue 3KB

wordChart.vue 3KB

submit.vue 2KB

Index.vue 1KB

MainLayout.vue 910B

Error404.vue 571B

共 102 条

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源预览

资源评论

--- title:基于XX的旅游网站评论情感分析 tags: [python,数据分析,爬虫,NLP] hide: true --- # 基于xx的旅游网站情感分析 # 想法：集成各大旅游网站平台，当用户复制某个链接到系统中，自动爬取该目标中的评论并完成分析，展示给用户 ## 展示维度包括： - 评论情感分极- - 词云图 - 机票或景点价格预测- - 根据出行日期判断目的地天气 - 酒店价格 ## 难点： - 适应多个网站的爬虫、反爬策略 - 评论中的转折词，比如：景点态度不好，但是风景不错，还是值得一去的。这一条应该划分到情感为正面，但是很可能因为态度不好而划分到负面 - [融合句法规则和CNN的旅游评论情感分析](https://www.cnki.com.cn/Article/CJFDTotal-SJSJ201911047.htm) - 是不是可以根据评论中用户自己打的标签与分析出的标签做一个权重 - 价格预测 - 酒店推荐价格 ## 设计 ### 爬虫 - [x] 代理池 [云函数代理池](D:/0x0documents/MarkDown文件夹/python&爬虫/云函数代理池.md) - [ ] 途牛 - [ ] 马蜂窝 ### 前端 - 暂未设计 ### 后端 - 暂时选用Django # 笔记 ## 代理池 https://proxy-pool.readthedocs.io/zh/latest/user/how_to_run.html#id5 ## TensorFlow.js - https://storage.googleapis.com/tfjs-examples/sentiment/dist/index.html ## 途牛 ## 评论api(挂掉了) - https://www.tuniu.com/papi/tour/comment/product?page=2&productId=210050902&selectedType=23&firstRequest=0&stamp=0110038120372192071638846643381 - 参数 - page 页码 - productid 出游项目id - selectedType 评论类型 - 23 精华点评 - 20 满意 - 21 一般 - 22 不满意 - 16 有图 - 1199 感觉不错 - 1200 导游不错 - ...... 可以根据接口响应看到 # 代码 ## 携程 ```python ```