De dados grandes podem ser caracterizados por 3Vs : o volume de dados extremo, a grande variedade de tipos de dados e a velocidade à qual os dados devem ser processada deve. Apesar de big data não se refere a qualquer quantidade específica, o termo é usado frequentemente quando se fala sobre petabytes e exabytes de dados, muitas das quais não podem ser integrados facilmente.
Porque grande de dados leva muito tempo e custa muito dinheiro para carregar em um tradicional banco de dados relacional para análise, novas abordagens para armazenar e analisar dados emergiram que confiam menos em dados de esquema e qualidade dos dados . Em vez disso, os dados brutos com estendido metadados é agregada em um lago de dados e aprendizagem de máquina e inteligência artificial ( AI programas) usam complexos algoritmos para procurar padrões repetitivos.
Análise de dados grandes é frequentemente associada com a computação em nuvem , porque a análise de grandes conjuntos de dados em tempo real requer uma plataforma como o Hadoop para armazenar grandes conjuntos de dados através de uma distribuição de cluster e MapReduce para coordenar, combinar e processar dados de várias fontes.
Embora a procura de big data analyticsis alta, existe actualmente uma escassez de cientistas de dados e outros analistas que têm experiência em trabalhar com grandes volumes de dados em um ambiente de código aberto distribuído. Na empresa, os fornecedores têm respondido a esta escassez, criando aparelhos Hadoop para ajudar as empresas tirar proveito dos dados semi-estruturados e não estruturados que possuem.
Big data pode ser contrastado com dados pequenos , um outro termo evolução, que é frequentemente usado para descrever dados cujo volume e formato pode ser facilmente utilizado para a análise de auto-atendimento . Um axioma comumente citado é o "big data é para máquinas; pequena de dados é para as pessoas."