隨著信息行業(yè)日新月異的迅猛發(fā)展,各行各業(yè)的關(guān)系越發(fā)密切,并且產(chǎn)生了大量數(shù)據(jù),這也給審計工作帶來極大的挑戰(zhàn)。數(shù)據(jù)量劇增,導致審計任務(wù)更加繁重,僅靠傳統(tǒng)的審計方式不能夠在規(guī)定時間內(nèi)有效完成,由此我們成立了大數(shù)據(jù)審計攻關(guān)小組,將該項目作為攻關(guān)課題實驗項目,開展了一系列的實踐探索,取得了較好的效果。
集合全市各大醫(yī)院的醫(yī)療數(shù)據(jù),數(shù)據(jù)范圍涵蓋醫(yī)院的各個方面,包括用藥數(shù)據(jù)、手術(shù)操作數(shù)據(jù)、住院數(shù)據(jù)、醫(yī)療設(shè)備數(shù)據(jù)等等。醫(yī)院把自身醫(yī)療系統(tǒng)的數(shù)據(jù)按照格式要求上傳到指定Oracle數(shù)據(jù)庫,之后對數(shù)據(jù)進行審計工作。
團隊部署了一套Hadoop集群,用Sqoop從Oracle數(shù)據(jù)庫抽取目標數(shù)據(jù)到Hadoop集群,先用Hql在集群上把大量數(shù)據(jù)初步處理成小數(shù)據(jù)集,再用Python對小數(shù)據(jù)集進行深層分析,分析結(jié)果交由專業(yè)審計人員審核落實。

通過網(wǎng)絡(luò)采集程序獲取被審計單位及上級機關(guān)政府網(wǎng)站上的法定公開信息,主要是工作規(guī)劃、部署安排、審計實施方案等文本資料形成標準數(shù)據(jù)庫;被審計單位內(nèi)部提供的工作計劃、工作報告等文本資料形成審計數(shù)據(jù)庫。審計專業(yè)人員提供專業(yè)詞匯和審計重點詞匯,結(jié)合jieba分詞,建立審計使用專業(yè)分詞詞庫。對標準數(shù)據(jù)庫和審計數(shù)據(jù)庫從關(guān)鍵詞、詞頻、權(quán)重等方面進行文本數(shù)據(jù)分析挖掘,分析對比標準數(shù)據(jù)與審計數(shù)據(jù)。對于文本分析得出的結(jié)果,由專業(yè)的審計人員結(jié)合其他審計程序進行分析,然后進行審計疑點落實與取證工作。

按照審計內(nèi)容和重點,結(jié)合預(yù)處理后的數(shù)據(jù),采用合適審計方法,依托數(shù)據(jù)挖掘、機器學習、Nosql圖形數(shù)據(jù)庫技術(shù)、ES等技術(shù)手段,完成對具體審計數(shù)據(jù)的分析。具體應(yīng)用如下:

審計速度明顯提升,之前的審計速度大概是一個工作日審計一個醫(yī)院的一個疑點,運用大數(shù)據(jù)分析技術(shù)后,團隊用了7個工作日完成了5大醫(yī)院的所有審計工作,并且審計成果得到客戶的高度認可。
本項目以醫(yī)?;饘徲嬳椖繛橹黝},因地制宜、科學部署,融合開展經(jīng)濟責任審計、年度預(yù)算執(zhí)行審計、政策跟蹤審計等多個“專題”審計,創(chuàng)新探索走出了一條“主題+專題”融合式審計的路子。不僅確保了醫(yī)?;饘徲嬕I(lǐng)作用,更提高了專項審計的效率,擴大了審計成果,實現(xiàn)了“1+N” 的綜合效應(yīng),變“??茩z查”為“全科會診”, 本次審計共在30多個審計事項中發(fā)現(xiàn)存在問題58個,成果顯著。