老枞水仙属于什么茶| 月经为什么会提前| 梦见一坨屎是什么意思| 1.25是什么星座| 独在异乡为异客是什么节日| 左眼跳财是什么意思| 满血复活是什么意思| 小马拉大车什么意思| 刘晓庆什么星座| hoka跑鞋中文叫什么| 怀孕养猫对胎儿有什么影响| 平顶山为什么叫平顶山| 不寐病是什么意思| 分泌物多是什么原因| 手足口病吃什么食物| 梦见孕妇大肚子是什么意思| 什么是平舌音什么是翘舌音| 为什么会得肠胃炎| 咳嗽吃什么好的快| 胖大海配什么喝治咽炎| 孕妇耳鸣是什么原因引起的| 为什么嘴巴老是干| 35属什么生肖| 尿味重是什么原因| 爱慕什么意思| mexican是什么牌子| 尿潜血阳性什么意思| 太瘦的人吃什么能长胖| 三点水翟读什么| 右眼老跳是什么原因| 梦见生姜是什么意思| 女人吃山竹有什么好处| 什么钻进风箱里两头受气| 台阶是什么意思| 全麦粉和小麦粉的区别是什么| 摸摸唱是什么| 8.5是什么星座| 用纸可以折什么| 康妇炎胶囊主治什么| 曜字五行属什么| 高岗为什么自杀| 感冒吃什么食物好得快| 靓女是什么意思| dj管是什么| 12月10号是什么星座| 流汗太多对身体有什么危害| 没有美瞳护理液用什么代替| 为什么会流鼻血| 五七干校是什么意思| 什么是螨虫型痘痘图片| 肠粉为什么叫肠粉| 男人吃什么可以补精| 子宫脱落有什么症状| 生活质量是什么意思| 陈字五行属什么| 吃瓜是什么意思| 胆汁反流吃什么食物好| 中国的国花是什么花| 玉米须有什么功效| 摩羯座女和什么星座最配| 二月二十三日是什么星座| 螃蟹吃什么东西| 6.27什么星座| 发炎不能吃什么东西| 青蛙靠什么呼吸| 日久见人心是什么意思| 1962年五行属什么| 南无阿弥陀佛什么意思| 你喜欢吃什么用英语怎么说| 少尉军衔是什么级别| 肝不好有些什么症状| 禁锢是什么意思| 哥弟属于什么档次| 巨蟹座是什么星座| 一直咳嗽是什么原因| 青豆是什么豆| 唇炎是什么原因造成的| 煮花生放什么调料好吃| 专员是什么职位| 隶属什么意思| 烧钱是什么意思| 圣诞节是什么时候| 为什么会得尿毒症| 胃炎可以吃什么| 牙疼吃什么止疼药见效快| 老天爷叫什么名字| 蹲不下去是什么原因| 喉咙痛感冒吃什么药| 生殖器疱疹吃什么药| 小孩肚子痛吃什么药| 肺与什么相表里| 十字架代表什么| 下面痒是什么原因女性| 女性长期便秘挂什么科| 泌尿感染是什么症状| 人参归脾丸和归脾丸有什么区别| 办理港澳通行证需要带什么证件| 下午六点多是什么时辰| 刚刚怀孕有什么症状| 脱肛是什么原因引起的| 孕妇缺碘对胎儿有什么影响| 兆以上的计数单位是什么| 脱敏什么意思| 吃了避孕药会有什么副作用| 盐洗脸有什么好处| 女人没经验开什么店好| 为什么吃肉多反而瘦了| 流星雨是什么意思| 一天两包烟会导致什么后果| 缺血灶是什么意思| coscia是什么品牌| 伏羲是什么意思| 中国人为什么要学英语| 包煎是什么意思| 西洋参可以和什么一起泡水喝| 学信网上的报告编号是什么| 股票除权是什么意思| 前额头疼是什么原因引起的| 复合维生素是什么| 什么运动减肥最快| 隐性梅毒是什么意思| 孝喘吃什么药好| 烫发对身体有什么危害| 颜字五行属什么| 瘁是什么意思| 尿管型偏高是什么原因| 山药有什么营养| 供给侧改革什么意思| 口干舌燥口苦吃什么药| 果可以加什么偏旁| 口巴念什么| 1948年中国发生了什么| 有始无终是什么生肖| 脚踩按摩垫有什么好处| 恩泽是什么意思| 血透是什么意思| 葡萄酒中的单宁是什么| 太阳里面有什么| 水鱼是什么意思| 动次打次是什么意思| 割包皮有什么影响| 工装裤配什么鞋| 新西兰移民需要什么条件| 处女膜破了什么症状| 手指起水泡是什么原因| 感冒咳嗽挂什么科| 静脉血是什么颜色| mica是什么意思| 我的星座是什么| 为什么放屁特别臭| 男性左下腹痛是什么原因| 开心是什么意思| asmr是什么| 为什么手会不自觉的抖| 农业户口和非农业户口有什么区别| 蚊子会传染什么病| 势均力敌是什么意思| 歧路亡羊告诉我们什么道理| 总是嗳气是什么原因| 红色的对比色是什么颜色| 落汤鸡是什么意思| 什么是个体工商户| 急性牙髓炎吃什么药| 什么肉好吃| 腰椎退行性变是什么意思| 女人吃什么疏肝理气| 菠萝与凤梨有什么区别| oz是什么单位| 眼皮水肿是什么原因引起的| 吃什么能治脂肪肝| 鱼豆腐是什么做的| bys是什么药| 鹦鹉鱼能和什么鱼混养| 右眼皮上长痣代表什么| 乐果是什么农药| tomboy是什么意思| 温度计代表什么生肖| 唐氏综合征是什么| 玉是什么结构的字| 什么是毒龙| 肝阳上亢吃什么中成药| 心不在焉是什么意思| 宝宝满周岁送什么礼物| 高密度脂蛋白低是什么原因| 嗓子有痰是什么原因| 腹痛拉肚子吃什么药| 一国两制是什么时候提出的| 看望病人送什么花| 血燥是什么意思| 热敷肚子有什么好处| 鸽子夏天喝什么水好| 决明子和什么搭配最好| 今年是什么| 梦见扫墓是什么预兆| 中度贫血是什么原因造成的| 什么头什么向| 雀神是什么意思| 嘴唇正常颜色是什么样| 画饼什么意思| 甲基硫菌灵治什么病| 什么是妈宝男| 梦见吃雪糕是什么意思| 什么羊肉最好吃| 为什么硬一会就软了| 捋捋是什么意思| 乳腺结节吃什么食物好| #NAME?| 甲功七项能查出什么病| 急性阴道炎是什么引起的| 介入科主要看什么病| 喉咙痛有什么好办法| 血栓弹力图是查什么的| 绿豆和什么相克| 不停的出汗是什么原因| 出是什么意思| 彩色多普勒超声检查是什么| 什么情况下吃奥司他韦| 吃李子不能吃什么| 转网是什么意思| 水瓶座是什么星象| 鼎字五行属什么| 江西特产有什么| 十月十二日是什么星座| hc是胎儿的什么| 为什么马卡龙那么贵| 走资派是什么意思| 本能反应是什么意思| 身上长白点是什么原因| 嗓子有黄痰是什么原因| 月经不能吃什么水果| cupid什么意思| 嗜酸性粒细胞偏低是什么意思| 酒吧营销是做什么的| 香港脚是什么症状图片| 什么叫桑拿| 肺炎吃什么药| 眼压高用什么眼药水| 斯德哥尔摩综合征是什么| 为什么腹部隐隐作痛| 舅舅是什么关系| 血清胰岛素测定查什么| th什么意思| 乳房头疼是什么原因| 衣带渐宽终不悔是什么意思| 辩证是什么意思| 美国现在是什么时间| 灰指甲医院挂什么科| 螃蟹不能和什么食物一起吃| 蓝蓝的天上白云飘是什么歌| 吃什么能瘦肚子| 巾帼不让须眉是什么意思| 王安石是什么朝代的| 女生右手中指戴戒指什么意思| 作壁上观什么意思| 霍乱时期的爱情讲的是什么| 美国的国歌是什么| prp治疗是什么意思| 转什么为什么成语| 喉咙咳出血是什么原因| 晚上睡觉腿抽筋是什么原因| 血糖高了会有什么危害| 脚软没力气是什么原因引起的| 火棉胶婴儿是什么意思| 马齿苋与什么食物相克| 百度
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用车小区没固定车位 网友吐槽天天做停车训练

zhKF_jqr_AI ? 来源:未知 ? 作者:李倩 ? 2025-08-04 14:58 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据分析师Seth Grimes曾指出“80%的商业信息来自非结构化数据,主要是文本数据”,这一表述可能夸大了文本数据在商业数据中的占比,但是文本数据的蕴含的信息价值毋庸置疑。KDnuggets的编辑、机器学习研究者和数据科学家Matthew Mayo就在网站上写了一个有关文本数据分析的文章系列。本文是该系列的第一篇,主要讲述了文本数据分析的大致步骤和框架。以下是论智对原文的编译。

虽然NLP和文本挖掘不是一回事儿,但它们仍是紧密相关的:它们处理同样的原始数据类型、在使用时还有很多交叉。下面我们就来描述一下这些任务的处理步骤。

如今的文本数据量非常之大,许多都是从日常生活中产生的,其中既有结构化的,也有半结构化甚至混乱的数据。我们对此能做什么?事实上,能做的有很多,这取决于你的目标是什么。

文本挖掘还是自然语言处理?

自然语言处理(NLP)关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一,它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似,它关注的是识别文本数据中有趣并且重要的模式。

但是,这二者仍有不同。首先,这两个概念并没有明确的界定(就像“数据挖掘”和“数据科学”一样),并且在不同程度上二者相互交叉,具体要看与你交谈的对象是谁。我认为通过洞见级别来区分是最容易的。如果原始文本是数据,那么文本挖掘就是信息,NLP就是知识,也就是语法和语义的关系。下面的金字塔表示了这种关系:

数据处理,自然语言

另一种区分这两个概念的方法是用下方的韦恩图区分,其中也涉及其他相关概念,从而能更好地表示它们之间重叠的关系。

数据处理,自然语言处理

我们的目的并不是二者绝对或相对的定义,重要的是要认识到,这两种任务下对数据的预处理是相同的。

努力消除歧义是文本预处理很重要的一个方面,我们希望保留原本的含义,同时消除噪音。为此,我们需要了解:

关于语言的知识

关于世界的知识

结合知识来源的方法

除此之外,下图所示的六个因素也加大了文本数据处理的难度,包括非标准的语言表述、断句问题、习惯用语、新兴词汇、常识以及复杂的名词等等。

数据处理,自然语言处理

文本数据科学任务框架

我们能否为文本数据的处理制作一个高效并且通用的框架呢?我们发现,处理文本和处理其他非文本的任务很相似,可以查看我之前写的KDD Process作为参考。

以下就是处理文本任务的几大主要步骤:

1.数据收集

获取或创建语料库,来源可以是邮箱、英文维基百科文章或者公司财报,甚至是莎士比亚的作品等等任何资料。

2.数据预处理

在原始文本语料上进行预处理,为文本挖掘或NLP任务做准备

数据预处理分为好几步,其中有些步骤可能适用于给定的任务,也可能不适用。但通常都是标记化、归一化和替代的其中一种。

3.数据挖掘和可视化

无论我们的数据类型是什么,挖掘和可视化是探寻规律的重要步骤

常见任务可能包括可视化字数和分布,生成wordclouds并进行距离测量

4.模型搭建

这是文本挖掘和NLP任务进行的主要部分,包括训练和测试

在适当的时候还会进行特征选择和工程设计

语言模型:有限状态机、马尔可夫模型、词义的向量空间建模

机器学习分类器:朴素贝叶斯、逻辑回归、决策树、支持向量机、神经网络

序列模型:隐藏马尔可夫模型、循环神经网络(RNN)、长短期记忆神经网络(LSTMs)

5.模型评估

模型是否达到预期?

度量标准将随文本挖掘或NLP任务的类型而变化

即使不做聊天机器人或生成模型,某种形式的评估也是必要的

在下篇连载中,我将为大家带来在文本数据任务中,对数据预处理的框架的进一步探索,敬请关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据处理
    +关注

    关注

    0

    文章

    628

    浏览量

    29347
  • 自然语言处理

    关注

    1

    文章

    628

    浏览量

    14198

原文标题:文本数据分析(一):基本框架

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自然语言处理包括哪些内容 自然语言处理技术包括哪些

    自然语言处理(Natural Language Processing, NLP)一般包括以下内容: 语音识别(Speech Recognition):将人类语言转换为计算机可以理解的形式。 语音合成
    的头像 发表于 08-03 16:22 ?8875次阅读

    python自然语言

    最近,python自然语言是越来越火了,那么什么是自然语言自然语言(Natural Language )广纳了众多技术,对自然或人类语言
    发表于 05-02 13:50

    NLPIR语义分析是对自然语言处理的完美理解

    ,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条:
    发表于 10-19 11:34

    自然语言处理怎么最快入门?

    `本文整理自知乎上的一个问答,分享给正在学习自然语言处理的朋友们!一、自然语言处理是什么?自然语言
    发表于 11-28 10:02

    【推荐体验】腾讯云自然语言处理

    自然语言处理技术的功劳。可以说,只要有大量文本数据的应用场景,几乎都涉及到NLP技术,也都可以使用相关自然语言处理产品的接口来做智能
    发表于 10-09 15:28

    NLPIR平台实现文本挖掘的一站式应用

    的工具。语义智能分析的全链条指的是从语料数据的采集预处理,经过自然语言处理文本
    发表于 11-07 16:43

    自然语言处理技术可助力机器学习加快挖掘数据

    目前,产业界正发力钻研人工智利用数据的高效方法。通过自然语言处理和主题建模可以使技术优化、竞争分析和微弱信号检测等流程得到改善,加快海量文本数据分析
    的头像 发表于 04-11 15:06 ?2019次阅读

    自然语言处理(NLP)的学习方向

    科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
    的头像 发表于 07-06 16:30 ?1.4w次阅读

    自然语言处理的图像文本建模相关研究及分析

    近年来,图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对图像信息用于句子语义理解的必要性提岀质疑,原因是文本本身就能
    发表于 03-24 11:33 ?27次下载
    <b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>的图像<b class='flag-5'>文本</b>建模相关研究及<b class='flag-5'>分析</b>

    NLA自然语言分析,助力解决数据分析的难题

    NLA自然语言分析便是顺应数据分析大环境而诞生的一项功能,为用户提供更加智能便捷的数据分析
    发表于 06-02 10:07 ?567次阅读

    自然语言理解问答对话文本数据,赋予计算机智能交流的能力

    自然语言理解(Natural Language Understanding,简称NLU)问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的自然语言交互
    的头像 发表于 08-07 18:11 ?998次阅读

    自然语言处理模式的优点

    得到了广泛的应用,如搜索引擎、语音助手、机器翻译、情感分析等。 1. 提高信息获取效率 自然语言处理技术能够快速地从大量文本数据中提取关键信息,帮助用户节省查找和筛选信息的时间。例如,
    的头像 发表于 07-03 14:24 ?1278次阅读

    ASR与自然语言处理的结合

    。以下是对ASR与自然语言处理结合的分析: 一、ASR与NLP的基本概念 ASR(自动语音识别) : 专注于将人类的语音转换为文字。 涉及从声音信号中提取特征,并将这些特征映射到文本
    的头像 发表于 11-18 15:19 ?1082次阅读

    自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

    Learning,简称ML)是人工智能的一个核心领域,它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系,因为机器学习提供了一种强大的工具,用于从大量文本数
    的头像 发表于 12-05 15:21 ?2054次阅读

    如何使用自然语言处理分析文本数据

    使用自然语言处理(NLP)分析文本数据是一个复杂但系统的过程,涉及多个步骤和技术。以下是一个基本的流程,帮助你理解如何使用NLP来分析
    的头像 发表于 12-05 15:27 ?1652次阅读
    1953年是什么生肖 一什么明月 五月出生是什么星座 湖南为什么叫湖南 保肝护肝吃什么
    每天一杯蜂蜜水有什么好处 车迟国的三个妖怪分别是什么 伯恩光学是做什么的 双子座是什么象星座 银屑病是什么引起的
    冤家是什么意思 莫须有是什么意思 外婆菜是什么菜 嗯呢什么意思 golden是什么牌子
    纨绔子弟什么意思 可心是什么意思 手指指尖发麻是什么原因 木菠萝什么时候成熟 胸腺瘤是什么病
    梦见大黑蛇是什么预兆hcv9jop7ns3r.cn 多吃木瓜有什么好处hcv8jop0ns0r.cn 津液亏虚吃什么中成药sanhestory.com 流年是什么aiwuzhiyu.com 洋姜有什么功效与作用hcv8jop4ns5r.cn
    188是什么意思hcv7jop6ns8r.cn 敏感肌是什么意思hcv9jop2ns4r.cn 电子邮件地址是什么意思hanqikai.com 男性吃什么增强性功能hcv9jop3ns7r.cn 吃毛蛋有什么好处hcv9jop5ns6r.cn
    减肥吃什么好hcv8jop0ns6r.cn ua是什么hcv7jop9ns8r.cn xo兑什么饮料好喝hcv9jop4ns3r.cn 智商120是什么水平hcv8jop3ns8r.cn 6月20日什么星座hcv7jop4ns7r.cn
    孕妇子痫是什么病hcv8jop8ns0r.cn 雪芽是什么hcv8jop4ns0r.cn 甲申日是什么意思hcv8jop8ns6r.cn 蝶窦炎是什么病hcv9jop3ns4r.cn 房间放什么可以驱蜈蚣hcv8jop9ns4r.cn
    百度