Commit
·
4da972d
1
Parent(s):
b72302a
Refactor code structure for improved readability and maintainability
Browse files- .gitattributes +1 -0
- README.md +31 -0
- assets/eda_dashboard.png +3 -0
- assets/wordcloud_comparison.png +3 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
*.png filter=lfs diff=lfs merge=lfs -text
|
README.md
CHANGED
|
@@ -140,6 +140,37 @@ Manchetes coletadas de múltiplos portais brasileiros para garantir diversidade:
|
|
| 140 |
- "Descubra o segredo para emagrecer 10kg em 7 dias!!!"
|
| 141 |
- "Este truque simples vai MUDAR sua vida para sempre"
|
| 142 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 143 |
## Avaliação
|
| 144 |
|
| 145 |
### Dados de Teste
|
|
|
|
| 140 |
- "Descubra o segredo para emagrecer 10kg em 7 dias!!!"
|
| 141 |
- "Este truque simples vai MUDAR sua vida para sempre"
|
| 142 |
|
| 143 |
+
## Análise Exploratória de Dados
|
| 144 |
+
|
| 145 |
+
### Distribuição e Padrões dos Dados
|
| 146 |
+
|
| 147 |
+

|
| 148 |
+
|
| 149 |
+
A análise exploratória revela padrões interessantes:
|
| 150 |
+
|
| 151 |
+
#### 📊 Principais Insights
|
| 152 |
+
|
| 153 |
+
1. **Distribuição Balanceada:** Dataset equilibrado (~50/50) minimiza viés de classe
|
| 154 |
+
2. **Comprimento dos Textos:**
|
| 155 |
+
- Não-Clickbait: média de ~12 palavras
|
| 156 |
+
- Clickbait: média de ~15 palavras (mais descritivo/sensacionalista)
|
| 157 |
+
3. **Densidade de Palavras:** Clickbait apresenta maior variabilidade no vocabulário
|
| 158 |
+
4. **Top 20 Palavras Relevantes:** Padrões linguísticos distintos entre classes
|
| 159 |
+
|
| 160 |
+
### Características Textuais
|
| 161 |
+
|
| 162 |
+
| Métrica | Não-Clickbait | Clickbait |
|
| 163 |
+
|---------|---------------|-----------|
|
| 164 |
+
| Palavras/manchete (média) | 12.3 | 15.7 |
|
| 165 |
+
| Stopwords (%) | 35% | 30% |
|
| 166 |
+
| Palavras únicas | ~2.800 | ~3.200 |
|
| 167 |
+
|
| 168 |
+
#### Visualização das Palavras Mais Frequentes
|
| 169 |
+
|
| 170 |
+

|
| 171 |
+
|
| 172 |
+
*Comparação visual das palavras mais relevantes (sem stopwords) em manchetes clickbait e não-clickbait. Observe os padrões linguísticos distintos: manchetes clickbait usam mais verbos de ação e palavras de impacto emocional.*
|
| 173 |
+
|
| 174 |
## Avaliação
|
| 175 |
|
| 176 |
### Dados de Teste
|
assets/eda_dashboard.png
ADDED
|
Git LFS Details
|
assets/wordcloud_comparison.png
ADDED
|
Git LFS Details
|