大數據在高校中的應用高校中匯聚著大量的信息,從學生角度來看,包括聯系方式等基本信息,食堂消費、住宿晚歸等生活信息,選課、課后作業、借閱圖書、成績等學習信息,參與的社團、競賽、講座等第二課堂信息;從教師角度來看,包含教學任務、課件等教學信息,論文著作、科學研究數據等科研信息;從管理者的角度來看,包含學校的資產信息、師資信息、招生就業信息等。同時隨著移動互聯網以及物聯網等新技術的興起,學校師生主動產生和由設備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點擊記錄信息等。上述信息存在著數據量大、結構復雜、產生頻率快的特點。這導致利用常用軟件工具捕獲、管理和處理此類數據所耗費時間超過了可容忍的時間大數據的處理流程與一般數據的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構的數據源進行抽取和集成,將結果按照一定的標準統一存儲,利用合適的數據分析技術對存儲的數據進行分析從中提取有益的知識,并利用恰當的方式將結果展現給終端用戶。具體來說可以分為數據抽取與集成、網綜 中國有嘻哈為何爆紅,數據分析和數據展示。數據抽取和集成要解決的主要問題就是收集各種碎片化的數據,對數據進行清洗,保證數據質量,同時根據時間演進不斷更新數據模式,確定數據實體及其之間的關系,最終將數據按照統一的格式進行存儲,以便提供給上層用來進行數據分析目前高校已經基本建立了完備的管理信息系統、學習管理系統等,在統一數據中心中積累了大量的結構化數據;同時各類系統中還散布著大量的半結構化和非結構化數據。半結構化和非結構化的數據經過一定處理后,可以轉化為更容易分析使用的結構化數據經過抽取和集成得到的數據, 需要經過分析挖掘其潛在的價值。傳統的數據挖掘、機器學習、統計分析等方法仍然可以用來對數據進行分析,只是需要根據大數據的特征進行調整。首先,為了實現對海量數據的分析,需要依Map/Reduce 模型,將數據拆分處理,然后再將結果匯總,一個完整的分析可能會經過多層類似的處理過程;其次,大數據的應用通常具有實時性的特點,數據的價值會隨著時間的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最后,大數據一般構建在云計算平臺之上,分析方法需要考慮與云計算平臺的集成或做為一種云服務數據分析得到的分析結果,需要以直觀可理解的方式呈獻給最終用戶,在大數據時代,數據分析產生的結果有可能也是非常大量的,且結果之間的關聯關系復雜、數據維度更多,數據可視化技術通過更加適合人類思維的圖形化的方式展示數據分析結果,已經被證明是展示數據分析結果非常有效的方法。常見的可視化方法有:多維疊加式數據可視化、數據在空間、時間坐標中的變化和對比等,當然要將枯燥的信息轉換為美麗的、令人印象深刻的圖形,需要較高的技術素養和藝術素養很多高校正在使用大數據分析技術解決遇到的實際問題,如美國德克薩斯大學利用大數據技術分析學校用戶IT 使用行為產生的數據,確定用戶行為異常,審計IT 基礎環境,制定安全防護措施。其他的一些應用場景包括分析學生參與網絡課堂產生的數據,進而確定如何改進課程講述方式,達到因材施教的教育目標高校可以在就業情況分析、學習行為分析、學科規劃、心理咨詢、校友聯絡等方面借助大數據分析技術,挖掘數據中潛在的價值當前市場經濟高速發展、高校不斷擴招、就業制度改革不斷深化和畢業生數量逐年增加、社會整體就業形勢日益嚴峻,大學生就業問題己經越來越成為目前大家共同關心的話題,研究大學生就業問題具有緊迫性和重要性。本文提出在大數據分析框架下的就業問題分析思路傳統的就業分析一般從就業單位、就業地區、所在院系專業、性別、簽約類別、就業年份等維度來分析,得到的只是一般意義上的統計結果,對于指導單個學生的就業以及預測未來的就業情況發揮的作用比較有限。應用大數據分析技術,就可以將學生就業模型涉及到的學習情況、社團信息、生活信息、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計劃、歷屆學生在所投公司的表現等眾多的信息進行收集。以上海財經大學為例,可以從圖1 所示的各類系統中抽取學生的各類信息,構成就業分析模型所需的各類數據將就業分析模型所需的數據存儲在Hbase 數據庫后,可以利用Hive 對Hbase中的數據進行查詢和分析。Hive 提供了一種簡單的類SQL 查詢語言,十分適合數據倉庫的統計分析。通過Hive 我們可以實現傳統數據倉庫所實現的對就業數據的匯總統計分析,而且可以容易的擴展其存儲能力和計算能力除了數據統計分析之外,我們還可以利用Mahout 這個機器學習工具對數據進行監督學習和無監督學習。監督學習使用先驗知識對數據進行分類;無監督學習則由計算機自己學習處理數據,并在做出判斷后給予一定的激勵或懲罰。在進行就業分析時,企業宣傳片制作我們可以使用Mahout 已經實現的具體方法。首先是協作篩選,通過分析已就業學生的成績、設立電影發展專項資金 支持電影走出去,參加的社團活動、關注的行業、性格特點、就業單位、就業崗位等,計算學生之間的相似度,為即將畢業的學生推薦適合的就業單位和崗位,提供個性化的服務;其次是聚類,這是一種無監督的機器學習方法,我們可以通過不同的維度將未能及時就業的學生進行分析,從中找出其共同的特點,再通過比較在校學生的相關屬性,及時對學生給出預警,以便其在后續的學習和生活中加以改進,如圖3在數據展示層, 我們可以使用Tableau 軟件將分析的結果進行可視化的展示,Tableau 將數據與美觀的圖表完美地結合在一起,它包含非常多的預定義的圖表格式,同時還可以將時間、地圖等多種維度在單一的圖表中進行展示為了支持學生的自主學習,高校一般都有自己的學習管理系統如Blackboard、Sakai 等。這些學習管理系統為學生、教師提供了課程學習和交流的空間。美國教育部教育技術辦公室認為教育數據分為鍵擊層(keystroke level)、回答層(answer level)、學期層(session level)、學生層(student level)、教室層(classroom level)、教師層(teacher level)和學校層(school level),數據就寓居在這些不同的層之中。一般高校每年的開課數在數千門,學生數在數萬人,產生的數據量非常大。應用大數據分析技術使得監控學生的每一個學習行為變為了可能,學生在回答一個問題時用了多長時間,哪些問題被跳過了,中國為什么沒有超級英雄電影,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的行為檔案創造適應性的學習系統能夠提高學生的學習效果促進學科交叉融合發展,構筑有生命力的學科生態,打造凸顯核心競爭力的高水平學科是學校學科規劃的重要任務。借助大數據分析技術,充分收集各學科的教學狀態數據、科研項目數據、前沿發展動態等信息,從而分析學科建設存在的不足,確定學科未來發展的方向,發掘出潛在的具有國際視野的學科帶頭人校友資源猶如一座座寶藏,對高校的發展建設有著不可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯絡起來、團結起來,對學校的建設和發展具有重要意義。利用傳統的管理方法,僅校友信息收集就要耗費大量的時間和精力。利用大數據技術,收集各類社交網站上的非結構化數據,通過分類、聚類等數據挖掘方法,確定校友身份并收集其聯系方式、參加的活動信息等,可以大大提高校友數據收集的效率,公司宣傳片拍攝為以后利用校友資源提供良好的基礎大數據在高校應用的美好前景令人神往,但目前大數據的應用還存在很多應用難點,主要有數據集成困難、數據分析方法有待改進和數據隱私問題。高校應該探索融合結構化、半結構化、非結構化數據的統一模型,同時提高數據采集的質量,強化數據文化半結構化和非結構化數據的迅猛增長,給傳統的聚類、關聯分析等數據挖掘技術帶來了巨大的沖擊和挑戰。一方面,很多應用場景要求數據的實時分析;另一方面缺乏對半結構化和非結構化數據的先驗知識,企業宣傳片制作難以構建其間的關聯關系。高校需要緊密跟蹤業界對大數據分析方法的研究動態,同時通過高校間的協作溝通探索新型的數據分析方法大數據分析的數據基礎必然建立在獲取更多個人信息之上,而且通過分析還可以使數據之間產生關聯關系,進而揭示更多的個人隱私。然而為了保護隱私就將所有數據加以隱藏,那么數據的價值就無法體現。這種矛盾在相當長的時間內必將一直存在,需要通過技術和制度的完善逐步解決移動互聯、MOOC 等技術的不斷興起給高校的發展帶來了極大的挑戰,為了應對這種挑戰,高校應當充分發揮大數據在其中的支撐作用。在人才培養、科學研究和管理等方面廣泛收集過程數據,結合可視化技術充分分析和挖掘蘊含在數據之中的豐富價值。同時我們需要在高校內倡導和強化數據文化,建立持久運作的收集、分析數據并將分析結果轉換為教育決策和實踐的體系,真正發揮大數據在高校發展中的價值。