rodrigoaraujorosa commited on
Commit
4da972d
·
1 Parent(s): b72302a

Refactor code structure for improved readability and maintainability

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ *.png filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -140,6 +140,37 @@ Manchetes coletadas de múltiplos portais brasileiros para garantir diversidade:
140
  - "Descubra o segredo para emagrecer 10kg em 7 dias!!!"
141
  - "Este truque simples vai MUDAR sua vida para sempre"
142
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
143
  ## Avaliação
144
 
145
  ### Dados de Teste
 
140
  - "Descubra o segredo para emagrecer 10kg em 7 dias!!!"
141
  - "Este truque simples vai MUDAR sua vida para sempre"
142
 
143
+ ## Análise Exploratória de Dados
144
+
145
+ ### Distribuição e Padrões dos Dados
146
+
147
+ ![Análise Exploratória Completa](assets/eda_dashboard.png)
148
+
149
+ A análise exploratória revela padrões interessantes:
150
+
151
+ #### 📊 Principais Insights
152
+
153
+ 1. **Distribuição Balanceada:** Dataset equilibrado (~50/50) minimiza viés de classe
154
+ 2. **Comprimento dos Textos:**
155
+ - Não-Clickbait: média de ~12 palavras
156
+ - Clickbait: média de ~15 palavras (mais descritivo/sensacionalista)
157
+ 3. **Densidade de Palavras:** Clickbait apresenta maior variabilidade no vocabulário
158
+ 4. **Top 20 Palavras Relevantes:** Padrões linguísticos distintos entre classes
159
+
160
+ ### Características Textuais
161
+
162
+ | Métrica | Não-Clickbait | Clickbait |
163
+ |---------|---------------|-----------|
164
+ | Palavras/manchete (média) | 12.3 | 15.7 |
165
+ | Stopwords (%) | 35% | 30% |
166
+ | Palavras únicas | ~2.800 | ~3.200 |
167
+
168
+ #### Visualização das Palavras Mais Frequentes
169
+
170
+ ![Nuvem de Palavras - Comparação Clickbait vs Não-Clickbait](assets/wordcloud_comparison.png)
171
+
172
+ *Comparação visual das palavras mais relevantes (sem stopwords) em manchetes clickbait e não-clickbait. Observe os padrões linguísticos distintos: manchetes clickbait usam mais verbos de ação e palavras de impacto emocional.*
173
+
174
  ## Avaliação
175
 
176
  ### Dados de Teste
assets/eda_dashboard.png ADDED

Git LFS Details

  • SHA256: 39f34bf1b47cfd5bd5b06ef9921bfb2919e2c85cd2b5cadadedf5a5e0b2dcc4a
  • Pointer size: 131 Bytes
  • Size of remote file: 766 kB
assets/wordcloud_comparison.png ADDED

Git LFS Details

  • SHA256: 0067437a2582cc679fc4356d9ca409f9923e818f494aa85c2ac63d50eee397c6
  • Pointer size: 131 Bytes
  • Size of remote file: 614 kB