Um dos aspectos que mais me chamam atenção acerca da história do Titanic é o quanto ela expande ramificações para diversas áreas, pois ele é a própria cápsula do tempo que nos faz viajar para o passado nos mostrando um pouco do contexto histórico daquela época e o quanto a sociedade havia avançado em termos de tecnologia, filosofia, ciência, arte, música, literatura, moda e cultura. Se quiséssemos fazer um recorte desta história, ainda assim uma guarda chuva de possibilidades se abriria sendo possível aprender muito sobre um assunto específico.
E é pensando nessa dimensão interdisciplinar que o Titanic nos proporciona que escrevo hoje a respeito do projeto ( Titanic Data Set ) que exemplifica um pouco do trabalho que exerce um cientista de dados.
Como o próprio nome sugere, este projeto é composto por um conjunto de dados que fornece informações sobre todos os passageiros que estavam a bordo do RMS Titanic quando o malfadado navio afundou em de abril de 1912 após colidir com um iceberg.
Este é um conjunto de dados bastante popularizado entre estudantes de ciência de dados. Com 891 linhas e 12 colunas, ele traz uma combinação de variáveis com base em características pessoais dos passageiros como idade, classe de ingresso no navio e gênero. Ao testar diferentes habilidades de classificação, o cientista de dados consegue prever a sobrevivência dos que estavam a bordo do Titanic em diferentes cenários.
O naufrágio resultou na morte de 1.500 dos 2.224 passageiros e tripulantes e embora houvesse algum elemento de sorte envolvido na sobrevivência, é evidente que alguns grupos de pessoas tinham mais probabilidade de sobreviver do que outros.
Neste desafio, o projeto pede aos usuários que construam um modelo preditivo que responda à pergunta ( Que tipo de pessoa tem mais probabilidade de sobreviver ? ) usando dados de passageiros, ou seja, nome, idade, gênero, classe socioeconômica, etc dos quais contém informações semelhantes, mas não divulga a verdade sobre cada passageiro, pois é seu trabalho prever esses resultados.
Usando os padrões encontrados nos dados, você precisa tentar prever se um passageiro sobreviveu ao naufrágio do Titanic ou não. A pontuação é a porcentagem de passageiros que você prevê corretamente, interessante, não ?
Para participar da competição, é importante assistir ao tutorial de como funciona a plataforma Kaggle ( https://encurtador.com.br/byIJX )e depois acessar ao site ( https://encurtador.com.br/bloKO ) neste último link você também consegue acessar a planilha a qual está disponibilizada os dados coletados.