這是基于spark的電影推薦系統(tǒng)數(shù)據(jù)集下載,博主一年前寫過一個(gè)這樣的文章,電影推薦也是博主一年前就學(xué)習(xí)過的,溫故而知新,重新拿出來好好重新研究一番。
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)當(dāng)中挖取金子的工作越來越有吸引力。利用Spark在內(nèi)存迭代運(yùn)算、機(jī)器學(xué)習(xí)領(lǐng)域強(qiáng)悍性能的優(yōu)勢(shì),使用spark處理數(shù)據(jù)挖掘問題就顯得很有實(shí)際價(jià)值。這篇文章給大家分享一個(gè)spark MLlib 的推薦實(shí)戰(zhàn)例子。我將會(huì)分享怎樣用spark MLlib做一個(gè)電影評(píng)分的推薦系統(tǒng)。使用到的算法是user-based協(xié)同過濾。如果對(duì)Spark MLlib不太了解的,請(qǐng)閱讀我的上一篇博客。
1. 拷貝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目錄;
(spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar刪除javax/servlet包獲得,由于太大,所以就沒有上傳了);
2. 拷貝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目錄和代碼中一致);
3. 拷貝WebContent/WEB-INF/lib目錄中的Spark141-als.jar到HDFS(目錄和代碼中保持一致);
4. 拷貝Hadoop集群(調(diào)用所使用的集群,每個(gè)人不一樣)配置文件yarn-site.xml到HDFS(目錄和代碼中保持一致);
5. 修改相關(guān)配置文件,由于hadoop相關(guān)配置、系統(tǒng)的一些屬性需要修改為實(shí)際的配置及屬性,所以針對(duì)這些需要進(jìn)行修改(后面版本中會(huì)對(duì)此單獨(dú)一個(gè)配置文件)。