import org.apache.spark._ import org.apache.spark.rdd.RDD object WC2 { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("wc2") .setMaster("local") val sc = new SparkContext(conf) val lines = sc.textFile("hdfs://10.0.0.20:8020/wc3.txt") //遍历所有数组 // lines.foreach(x => {println(x)}) //以\t拆分获取第一个数组拼接aaa字符串 // lines.foreach(x => { // println(x.split("\t")(0) + "aaa") // }) //求出所有值的和 // val intRdd = lines.map(_.toInt) // val sum = intRdd.reduce((x,y)=> { // x+y // }) // //求出一共有多少条数据 // val total = intRdd.count() // println(sum) // println(total) // //取出第一行数据 // val fir = lines.first() // println(fir) // //取出前三行数据 // val take3 = lines.take(3).foreach(println(_)) //value相加 // val tuple = lines.map(_.split("\t")(0)).map((x =>(x,1))) // val map = tuple.countByKey() // map.foreach(x =>{ // println(x._1) // println(x._2) // }) //数据去重并且降序排序 // val qc = lines.map(_.toInt) // .distinct() // .sortBy(x=>x,true) // .foreach(x => { // println(x) // }) // val tp =lines.top(19).foreach(println(_)) } }