DPACMAN / README.md
svincoff's picture
remap
b44075a
---
license: cc-by-nc-nd-4.0
---
# Directory Structure
```
.
β”œβ”€β”€ README.md
β”œβ”€β”€ dpacman
β”‚Β Β  β”œβ”€β”€ data
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ README.md
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ chip_atlas
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ full_data_loading.py
β”‚Β Β  β”‚Β Β  β”‚Β Β  └── smaller_data_loading.py
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ remap
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ analyze.py
β”‚Β Β  β”‚Β Β  └── tfclust
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ analyze.py
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ api_download.py
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ combine.py
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ download.py
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ figures
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_box.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_box.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_hist.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_xlog_box.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_xlog_hist.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_hist.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ seq_lengths_xlog_box.png
β”‚Β Β  β”‚Β Β  β”‚Β Β  └── seq_lengths_xlog_hist.png
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg38_success_download.log
β”‚Β Β  └── data_files
β”‚Β Β  β”œβ”€β”€ processed
β”‚Β Β  β”‚Β Β  └── tfclust
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg19
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ encRegTfbsClustered_hg19_chr1.csv
β”‚Β Β  β”‚Β Β  β”‚Β Β  └── logs
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ completed.txt
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ completed_worker_0.txt
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ worker_0.log
β”‚Β Β  β”‚Β Β  └── hg38
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ encRegTfbsClustered_hg38_chr1.csv
β”‚Β Β  β”‚Β Β  └── logs
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ completed.txt
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ completed_worker_0.txt
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ worker_0.log
β”‚Β Β  └── raw
β”‚Β Β  β”œβ”€β”€ chip_atlas
β”‚Β Β  β”‚Β Β  └── experimentList.tab
β”‚Β Β  β”œβ”€β”€ genomes
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg19
β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg19_chr1.json
β”‚Β Β  β”‚Β Β  └── hg38
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg38_chr1.json
β”‚Β Β  β”œβ”€β”€ remap
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ reMap2022.bb
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ reMap2022.bed
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ remap2022_all_macs2_hg38_v1_0.bed.gz
β”‚Β Β  β”‚Β Β  └── remap2022_crm_macs2_hg38_v1_0.bed
β”‚Β Β  └── tfclust
β”‚Β Β  β”œβ”€β”€ encRegTfbsClusteredWithCells.hg19.bed
β”‚Β Β  β”œβ”€β”€ encRegTfbsClusteredWithCells.hg38.bed
β”‚Β Β  └── encRegTfbsClustered_data
β”‚Β Β  β”œβ”€β”€ hg19
β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg19_encRegTfbsClustered_chr1.json
β”‚Β Β  └── hg38
β”‚Β Β  β”œβ”€β”€ hg38_encRegTfbsClustered_chr1.json
β”œβ”€β”€ environment.yaml
β”œβ”€β”€ setup.py
└── tree_output.txt
```
20 directories, 3089 files
In `data_files` subfolders, only representative files for certain chromosomes are shown. In reality, any file that contains the substring "_chr" exists for every chromosome in that genome. Genome hg38 has 711 chromosomes. Genome hg19 has 298 chromosomes. To reconstruct a full directory structure, run the following from `DPACMAN`
```
tree -I '__pycache__|*.egg-info|*.git' > tree.txt
```