博客
关于我
爬取某瓣电影中你好,李焕英电影的短评并生成词云
阅读量:491 次
发布时间:2019-03-07

本文共 684 字,大约阅读时间需要 2 分钟。

要爬取并生成豆瓣电影短评及其词云图

项目结构清晰,主要包含以下几个部分:

  • 简单的Python脚本用于请求页面数据
  • 需要安装多个第三方库以支持特定功能
  • 项目输出包括词云图和文本文件
  • 使用了自定义的爬虫逻辑和词云生成工具
  • 关于图片和文件路径请注意要替换成自己的图片路径和字体文件路径。此外,还需自行安装需要的第三方库,包括但不限于requestsetreetimejiebaimageiowordcloudfrom typing import NoReturn。这些库中的大部分可能需要额外安装。

    项目实现过程如下:脚本首先发送请求获取指定链接的页面内容,使用etree解析HTML结构,并从页面中提取短评内容。短评内容被写入文本文件lhz.text中。接着,脚本根据页面结构判断是否继续爬取下一页的链接,这样可以自动完成多页的爬取工作。爬取完成后,用户可以调用make_clound()方法生成词云图,显示用户对电影的评论和看法。整个过程使用time.sleep()防止过度频繁请求,避免被网站反爬机制拦截。

    生成的词云图基于背景图片img.png,使用msyh.ttc字体文件,屏幕比例按scale参数放大。为了确保词云图的可读性,程序排除了常见的停用词如标点符号和一些数字符号。最终生成的词云图保存在new_inclound.png文件中。

    整个项目体积小巧,足够完成目标,生成的短评数量虽因反爬措施有限,但已经足够使用。当运行本项目时请确保网络环境稳定,避免过多请求导致被拦截。

    项目运行结果如下:生成的词云图清晰呈现用户评论内容,可视化观察情感分布。

    转载地址:http://gtjcz.baihongyu.com/

    你可能感兴趣的文章
    OpenCV与AI深度学习 | 实战 | 基于YoloV5和Mask RCNN实现汽车表面划痕检测(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于YOLOv9+SAM实现动态目标检测和分割(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于YOLOv9和OpenCV实现车辆跟踪计数(步骤 + 源码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 文本图片去水印--同时保持文本原始色彩(附源码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 通过微调SegFormer改进车道检测效果(数据集 + 源码)
    查看>>
    OpenCV与AI深度学习 | 实战—使用YOLOv8图像分割实现路面坑洞检测(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战篇——基于YOLOv8和OpenCV实现车速检测(详细步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战|OpenCV实时弯道检测(详细步骤+源码)
    查看>>
    OpenCV与AI深度学习 | 实用技巧 | 使用OpenCV进行模糊检测
    查看>>
    OpenCV与AI深度学习 | 实践教程|旋转目标检测模型-TensorRT 部署(C++)
    查看>>
    OpenCV与AI深度学习 | 工业缺陷检测中数据标注需要注意的几个事项
    查看>>
    OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤
    查看>>
    OpenCV与AI深度学习 | 手把手教你用Python和OpenCV搭建一个半自动标注工具(详细步骤 + 源码)
    查看>>
    OpenCV与AI深度学习 | 水下检测+扩散模型:或成明年CVPR最大惊喜!
    查看>>
    OpenCV与AI深度学习 | 深入浅出了解OCR识别票据原理
    查看>>
    OpenCV与AI深度学习 | 深度学习检测小目标常用方法
    查看>>
    OpenCV与AI深度学习 | 超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
    查看>>
    OpenCV与AI深度学习 | 高效开源的OCR工具:Surya-OCR介绍与使用
    查看>>
    OpenCV与AI深度学习|16个含源码和数据集的计算机视觉实战项目(建议收藏!)
    查看>>
    Opencv中KNN背景分割器
    查看>>