首页体坛最新分析正文

Redditor❼站关于2020年欧洲杯的帖子和评论 - 知乎

admin 体坛最新分析 2024-05-18 07:05:04 49

导读：作者|JimMengKok编译|VK来源|TowardsDataScience原文链接：距离在伦敦温布利体育场举行的意大利和英格兰2020年欧洲杯决赛结束已有近两个...

作者|Jim Meng Kok编译|VK来源|Towards Data Science原文链接：距离在伦敦温布利体育场举行的意大利和英格兰2020年欧洲杯决赛结束已有近两个月了。足球热正在慢慢消退，但最近的2022年国际足联世界杯预选赛吸引了我的注意力和兴趣，让我审视人们对2020年欧洲杯的看法。因此，我利用了一个Kaggle数据集，其中包含Redditor讨论2020年欧洲杯的帖子。这个小练习的资源可以在我的GitHub上找到，其中包括数据集和Python笔记本文件。 LDA是一种主题模型技术，它假设文档是由多个主题混合生成的，这些主题根据其概率分布生成单词。它还构建了每个文档的主题模型和每个主题的单词模型。因此，在数据预处理过程中涉及到以下内容：处理空数据：标题和正文列是唯一用文本填充的列。但是，body列中有许多空数据。因此，这些空数据被占位符“NaN”填充，稍后将被删除。这样，由于将标题列和正文列连接在一起，就形成了一个新的列text。小写转换：将文本列中的所有文本转换为小写是必要的，因为这有利于向量化。标点删除：使用正则表达式（Regex）删除标点。数字删除：使用正则表达式删除了数字。停用词删除：通过使用NLTK库以及在定制的停用词列表中添加常见的无关词，如“comment”和“nan”，停用词被删除。词形还原：将有助于保留文字信息含义的词语规范化，以便于向量化。分句和分词：将文本拆分为句子，并将句子拆分为单词。 NLTK的停用词：在继续使用LDA进行主题模型之前，向量化（vectorisation）旨在构建词典和语料库（单词包），并应用于标记化和词形还原单词。在词袋（bow）中，Gensim库为文档中的每个单词及其词频创建了唯一标识符。要启动LDA过程，需要指定数据集中的主题数量。因此，我将最小主题数设置为4，最大主题数设置为24。基于上述结果和连贯性分数的可视化，指定的最佳主题数为12个主题。一个好的模型包含低困惑度和高主题连贯性。以下结果表明，所建模型符合标准。该模型的输出显示了12个主题，每个主题都按单词分类。由于LDA不提供每个主题的主题，下面是输出以及我对每个主题所属主题的推断。基于上述分析，我们可以得出以下结论：Reddit用户对2020年欧洲杯感兴趣：意大利和英格兰之间的决赛英格兰队及其表现围绕英格兰队及其球迷的有争议的新闻涉及英格兰、意大利、西班牙和比利时的比赛比利时球员——凯文·德·布吕恩和伊登·哈扎德（或者是后者的兄弟托根·哈扎德！）参考引用Bansal, S. (2016). Beginners Guide to Topic Modeling in Python. Analytics Vidhya. August 24. Retrieved from D. M., Ng, A. Y., & Jordan, M., I. (2016). Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003) 993–1022. Retrieved from (2020). Removing stop words with NLTK in Python. November 24. Retrieved from

本文地址：https://tktzym.com/post/7920.html
若非特殊说明，文章均属本站原创，转载请注明原链接。