在线工具集

词云生成完整指南:分词算法 / 美学设计 / 应用场景

词云用字号和颜色可视化高频词汇,常见于年度盘点、舆情分析、用户画像。本文讲清楚分词、停用词过滤、词频映射、配色与应用。

📅 更新于 2026-04-29 · ⏱ 约 8 分钟阅读 · → 立即使用 词云生成

词云(Word Cloud)是一种数据可视化方式,用字号大小和颜色深浅表示词汇频率和重要性。从微信公众号年度运营盘点、电商用户评价分析,到舆情监测、学术论文关键词提取,再到社交媒体话题热度,词云快速浮现数据的核心价值。但生成高质量词云并不简单——中英文分词完全不同,停用词必须过滤,字号映射可用线性或对数,配色更是心理学运用。本指南从算法原理讲到美学设计。

分词:英文 vs 中文的巨大差异

英文分词(简单):按空格和标点切割。

"Hello world from Python"["Hello", "world", "from", "Python"]

浏览器原生 JavaScript 直接 .split(/\s+/) 即可。

中文分词(复杂):汉字间没有空格,无法用分隔符切割。必须用算法理解词义。

"我喜欢学习自然语言处理技术"["我", "喜欢", "学习", "自然", "语言", "处理", "技术"]["我", "喜欢", "学习", "自然语言处理", "技术"]

都有可能,取决于分词库和算法。

常见中文分词库: - jieba(Python):前向最大匹配 + 隐马尔可夫模型,准确率 85-90% - Python-Chinese-Segmentation:分词准确但速度较慢 - nodejieba(Node.js):jieba 的 JS 版本 - 大模型(ChatGPT):准确率最高但成本高

本站工具内置中文分词库,用户无需关心实现细节。

停用词过滤的重要性

分词后会出现大量"无意义的词",必须过滤掉:

中文停用词(常见 100+ 个): 的、是、了、和、在、有、人、这、中、大、来、以、对、生、要、我、他、不、为、起、到、一、被、...

英文停用词: the、a、an、and、or、but、in、on、at、to、be、is、are、...

例子: `` 原始文本:"中国是一个伟大的国家,我们的人民热爱和平。" 分词后:["中国", "是", "一个", "伟大", "的", "国家", "我们", "的", "人民", "热爱", "和平"] 过滤停用词:["中国", "伟大", "国家", "人民", "热爱", "和平"] ``

去掉 "是" "的" "我们" 这类虚词后,词云显示的信息密度立刻提高。

自定义停用词:本工具允许在生成前补充或删除停用词,比如项目特定的常见词(公司名、产品名)。

词频计算与字号映射

词频统计(计数): `` 单词词频 = 该单词在全文出现的次数 ``

假设分词后得到: `` "AI" 出现 150 次 "机器学习" 出现 80 次 "深度学习" 出现 45 次 "算法" 出现 20 次 ``

字号映射(关键一步):频率最高的词显示最大,最低的词显示最小。但用哪个函数映射?

线性映射: `` font_size = min_size + (frequency - min_freq) / (max_freq - min_freq) * (max_size - min_size) `` 字号与词频成正比。缺点:高频词太大,低频词太小,对比过于极端。

对数映射(推荐): `` font_size = min_size + log(frequency + 1) / log(max_freq + 1) * (max_size - min_size) `` 高频词增长放缓,低频词相对显眼,视觉分布更均衡。

平方根映射: `` font_size = min_size + sqrt(frequency) / sqrt(max_freq) * (max_size - min_size) `` 折中方案,常见。

经验参数:min_size = 12px,max_size = 80px(根据词云大小调整)。

形状与布局设计

词云形状影响视觉感受:

矩形(默认): - 最高效利用空间 - 阅读顺序清晰(从左到右、从上到下) - 适合信息密集场景

圆形: - 和谐、整体感强 - 常见于品牌/企业应用 - 空间利用率 70%

心形: - 情感化、温暖 - 常见于情人节、公益活动 - 难排版,空间利用率 60%

自定义形状:上传 SVG 或 PNG 轮廓,词云填充形状内部(高级功能)。

布局算法: - 螺旋(高效):从中心向外螺旋排列,快速、紧凑 - 随机(散乱):无序排放,有机、不规则 - 竖排(中文友好):竖排中文看起来更自然

本工具默认螺旋布局,水平排列,适合快速生成。

配色与心理学

颜色不仅是装饰,还传达信息:

暖色调(红、橙、黄、粉): - 传达:热情、积极、活力 - 适合:品牌推广、营销文案、互动分析 - 例:电商平台的用户评价词云

冷色调(蓝、青、紫、绿): - 传达:理性、专业、深度 - 适合:学术论文、技术分析、舆情监测 - 例:AI 论文关键词、代码库分析

单色渐变(同一色系深浅): - 传达:专业、统一 - 适合:企业正式报告

彩虹(多彩): - 传达:创意、多样 - 适合:儿童内容、创意产业 - 风险:容易显得混乱

  1. 与品牌色一致(企业应用)
  2. 用 3-5 个主色 + 渐变变体,避免超过 7 色(色数过多显脏)
  3. 高频词用高对比色,低频词用背景色接近的浅色
  4. 测试色盲友好度(5% 男性有色盲)

典型应用场景与案例

1. 微信公众号年度数据分析: 统计全年文章标题和正文中的高频词。暖色调词云,突出品牌传播的核心概念。

2. 电商评价分析: 用户评论分词后生成词云。"快递" "质量" "推荐" 大,"垃圾" "破损" 也大 → 表示有问题值得关注。

3. 舆情监测: 爬取新闻、微博、论坛评论,分词后监测高频词变化趋势。蓝色冷调显得专业。

4. 简历/论文关键词提取: PDF 转文本 → 分词 → 词频统计 → 生成词云。一眼看出求职者的核心技能或论文的主题。

5. 用户画像画像: 分析 500 条用户问卷回答,生成描述词云。"80 后" "北京" "白领" "爱好旅游" 高频 → 核心用户画像浮现。

6. 品牌认知调研: 问用户 "你对 iPhone 的第一印象?" 收集 1000+ 回答,词云显示 "创新" "简洁" "昂贵" 频率。

词云 vs 标签云的区别

两者容易混淆但完全不同:

词云(Word Cloud): - 根据词频改变字号 - 适合展示大量数据中的热点 - 需要数据计算、算法支撑 - 适合分析型应用

标签云(Tag Cloud): - 等大的标签,按名称字母排序 - 只有分类、导航功能 - 无需计算词频 - 适合网站导航(如博客标签页)

这里讲的是词云。本站工具不支持标签云。

常见问题

中文词云会包含繁体字吗?

取决于分词库。jieba 默认简体,但支持加载繁体词库。本工具默认简体中文。

能去掉某个我不想看的词吗?

可以。在生成前的「自定义停用词」输入框里加上这个词,或修改预设停用词表。

词云可以导出吗?

可以。本工具支持导出 PNG(光栅图)和 SVG(矢量),SVG 可在 Figma/Illustrator 继续编辑。

为什么同一份数据生成的词云每次不一样?

布局算法(特别是螺旋)加入了随机成分,多次生成的词位置会不同。词频和字号不变。如需完全复现,固定随机种子。

能生成 3D 词云吗?

本工具不支持 3D。3D 词云需要 Three.js 等 3D 引擎,交互体验未必更好,反而加载慢。