基于b站up主的视频
https://www.bilibili.com/video/BV18C4y1H7mr?t=1444
进行了优化
-
整合到一个main.py文件中函数式运行
-
自动化数据清洗
-
提供了stopword文件,删去了大部分词云中的停词
-
评分可以调整为列表形式传参数
注意未登录的豆瓣账号(不填写Cookie,只能爬取200条评论,登陆后填写可以爬取500条)
运行该项目需要调整好main.py中的参数,直接运行即可
url_1中电影号修改为对应豆瓣中的电影号
加到应代码的url的subject后面数字位置即可
url_1 = "https://movie.douban.com/subject/27073752/comments?start="
如下为爬取神奇女侠1分评论的词云运行效果:
情感分析如图:
第一行对应各个评分进行计数
1-5对应各个分段的情感
1为最积极 0为最消极.
github开源地址,可以直接下载源码运行
https://github.com/RonnieFu/Douban-movie-review-crawl-word-cloud
觉得有用的话点个赞, github给个星星, thanks
豆瓣电影评论爬取+情感分析+词云基于b站up主的视频https://www.bilibili.com/video/BV18C4y1H7mr?t=1444进行了优化整合到一个main.py文件中函数式运行自动化数据清洗提供了stopword文件,删去了大部分词云中的停词评分可以调整为列表形式传参数注意未登录的豆瓣账号(不填写Cookie,只能爬取200条评论,登陆后填写可以爬取500条)运行该项目需要调整好main.py中的参数,直接运行即可主要修改url_1中电影号修改为对应豆瓣中
def getHtml(url):
"""获取url页面"""
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
req = urllib.request.Request(url,headers=heade
国庆定档的长津湖可谓激起多少年轻人的热血。经过朋友的推荐,我这个死宅也跃跃欲试出寝室去看电影了。由于再三,还是先准备获取这部电影的评论再下决定。于是做出了这个小小的脚本。
主要需要的技能:
1.非常简易的爬虫。甚至不需要selenium自动化爬虫,也不需要利用爬虫框架
2.python基础语法,熟悉对列表字典的处理,以及对python绘图功能的基础了解
3.学会查阅官方文档,比解析更为有用。
另:做此篇的目的也是为了使自己重新熟悉python爬虫功
from lxml import etree
import time
url = "https://movie.douban.com/subject/25887288/reviews?start=%d"
使用ctrl+r键进行替换,使用(.*?...
分析:
爬取豆瓣网某
电影短评,前10页不需要登录就能
爬取,但是从第10页开始就需要登录才能获
取数据。使用selenium模拟登录后,因为是静态网页,可以保存cookie,然后利用requests,添加cookie进行登录操作。也可以直接登录后赋值网页cookie添加到requests请求中,进行登录。
本来想直接使用requets的post传送表单,保存cookie,但是里面的ticke、randstr参数每次都会变,这个是滑动验证码后,会出现的东西,搞不懂是怎么生成的,所以没办法直接post登录
### 回答1:
豆瓣电影是广受欢迎的电影评分与评论分享平台。对于电影观众来说,豆瓣上其他人对一部电影的评价和评论是非常重要的参考。因此,爬取豆瓣电影评论可以为观众提供更多的信息和参考。而情感分析是将评论转化为对电影的情感倾向,帮助观众更好地理解其他人对电影的评价和感受,因此非常有用。
LSTM-Attention模型是一种广泛应用的自然语言处理模型,可以分析文本序列的情感倾向。使用LSTM意味着模型能够捕捉词汇之间的依赖关系,而使用Attention机制可以更好地关注评论中的关键信息。使用这种方法对豆瓣电影评论进行情感分析,可以识别评论中的情感,同时关注评论的关键信息,帮助用户更好地了解电影评价。
爬取豆瓣电影评论需要用到爬虫技术,通过向豆瓣生成请求并解析网页,从而获取电影评论。对于情感分析,需要进行数据预处理,对文本数据进行分词、去除停用词等操作,并将评论转化为向量表示。
然后,可以使用LSTM-Attention模型训练,以便对豆瓣电影评论进行情感分析。训练模型时需要使用已经标注好情感倾向的评论数据集。在模型训练完成后,可以利用该模型对豆瓣电影评论进行情感分析,为用户提供更好的电影推荐和观影体验。
### 回答2:
LSTM-Attention情感分析是一种常见的自然语言处理技术,其可以用于分析文本中的情感色彩,并作出相应的分类。在这一技术中,LSTM是一种常见的神经网络结构,它可以有效地把文本中的词语传递到下一步。而Attention则是一种机制,可以帮助网络关注文本中更重要的部分,提高情感分析的准确性。
豆瓣电影评论是一种很好的数据集,可以用于训练情感分析模型。爬取豆瓣电影评论需要一定的技术手段,可以使用Python的爬虫框架等工具。这样可以获取大量的电影评论数据,并从中提取有用的情感分类信息。对这些数据进行预处理后,可以把它们用于训练LSTM-Attention情感分析模型。
在模型训练过程中,需要设置好合适的参数,例如学习率、批大小、迭代次数等等。同时,还需要选择合适的损失函数和评估指标,以提高模型的性能和鲁棒性。在模型训练完成后,可以使用验证集或测试集进行性能评估,并根据结果进行优化。
总之,爬取豆瓣电影评论使用LSTM-Attention情感分析技术,可以为我们提供一种快速、有效的情感分析方法。它不仅可以帮助我们了解电影观众的情感倾向,也为电影行业提供了有价值的市场分析手段。