什么是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
01什么是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?①結(jié)構(gòu)化數(shù)據(jù):指關(guān)系模型數(shù)據(jù),即以關(guān)系數(shù)據(jù)庫(kù)表形式管理的數(shù)據(jù),結(jié)合到典型場(chǎng)景中更容易理解,比如企業(yè)ERP、OA、HR里的數(shù)據(jù)。 ②非結(jié)構(gòu)化數(shù)據(jù):指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。如word、pdf、ppt及各種格式的圖片、視頻等。 ③半結(jié)構(gòu)化數(shù)據(jù):指非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù),例如日志文件、XML文檔、JSON文檔、E-mail等;
①表結(jié)構(gòu)不同,需要做到不同類(lèi)型的字段映射 ②假如要新增表字段的時(shí)候,需要新增列 ③若有表字段需要進(jìn)行二次處理規(guī)范,需要支持字段轉(zhuǎn)換,比如公式或其他 ④新增表設(shè)計(jì)時(shí),需要保證三大范式,這里就不展開(kāi)講了,可參考:數(shù)據(jù)庫(kù)三大范式 ⑤數(shù)據(jù)同步的時(shí)效性,例如實(shí)時(shí)同步、半小時(shí)一次、或者一天一次、或者說(shuō)是需要實(shí)時(shí)同步融合,這個(gè)要根據(jù)具體業(yè)務(wù)場(chǎng)景來(lái)確認(rèn)。
目前有兩種方式來(lái)處理半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù): ①提取半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)中的關(guān)鍵信息,到結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行二次利用,比較好處理的是半結(jié)構(gòu)化(json、xml)、excel、csv,因?yàn)檫@種數(shù)據(jù)的結(jié)構(gòu)比較統(tǒng)一。 ②向word、PDF這種文件提取關(guān)鍵信息,假如是單個(gè)文本的話,市面上有些工具可能可以實(shí)現(xiàn),但假如是大批量的話,可能就需要通過(guò)程序,去自定義一些正則表達(dá)式,去進(jìn)行關(guān)鍵信息的提取。這種一般來(lái)說(shuō),因?yàn)楦袷讲灰恢拢约坝猛静灰恢拢猿绦蜃远x的比較多。 針對(duì)這種的話,會(huì)綜合考慮數(shù)據(jù)價(jià)值和投入產(chǎn)出比,因?yàn)檫@部分的數(shù)據(jù)處理較為復(fù)雜。 若想提高投入產(chǎn)出比,可以使用例如FineDataLink這類(lèi)專(zhuān)業(yè)工具,去支持結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)的融合集成,面向ETL數(shù)據(jù)處理場(chǎng)景,也可以讓數(shù)據(jù)編排更簡(jiǎn)單一些,提高數(shù)據(jù)的使用價(jià)值。 另外,如若這部分歷史文件需要做到備份的話,會(huì)通過(guò)FTP或者SFTP將文件進(jìn)行備份存儲(chǔ)到文件服務(wù)器,進(jìn)行文件業(yè)務(wù)分類(lèi)、文件名、路徑的統(tǒng)一管理,提供統(tǒng)一入口,通過(guò)權(quán)限管理的方式給到大家下載使用。 該文章在 2024/11/11 10:19:04 編輯過(guò) |
關(guān)鍵字查詢(xún)
相關(guān)文章
正在查詢(xún)... |