[Hadoop]宁要少量大文件,不要大量小文件

摘自象书

宁要少量大文件,不要大量小文件(比如HDFS block还小若干量级)

因为:

  1.一个文件就要一个map task

  2.文件太多就需要很多map task

  3.运行map task有额外开销

  4.运行大量map task会带来过多开销

所以:

  不要大量小文件

Leave a Comment

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.