File size: 3,612 Bytes
2676cd2
 
 
ad760ef
 
 
 
 
 
 
dca7b00
 
 
 
 
b44075a
 
dca7b00
b44075a
dca7b00
b44075a
dca7b00
b44075a
 
 
 
 
 
 
 
 
dca7b00
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b44075a
 
 
 
 
dca7b00
 
 
 
 
 
 
 
ad760ef
dca7b00
 
 
 
 
b44075a
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
---

license: cc-by-nc-nd-4.0
---


# Directory Structure

```

.

β”œβ”€β”€ README.md

β”œβ”€β”€ dpacman

β”‚Β Β  β”œβ”€β”€ data

β”‚Β Β  β”‚Β Β  β”œβ”€β”€ README.md

β”‚Β Β  β”‚Β Β  β”œβ”€β”€ chip_atlas

β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ full_data_loading.py

β”‚Β Β  β”‚Β Β  β”‚Β Β  └── smaller_data_loading.py

β”‚Β Β  β”‚Β Β  β”œβ”€β”€ remap

β”‚Β Β  β”‚Β Β  β”‚Β Β  β”œβ”€β”€ analyze.py

β”‚Β Β  β”‚Β Β  └── tfclust

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ analyze.py

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ api_download.py

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ combine.py

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ download.py

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ figures

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_box.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_box.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_hist.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_xlog_box.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_flanked_xlog_hist.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_hist.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  β”œβ”€β”€ seq_lengths_xlog_box.png

β”‚Β Β  β”‚Β Β      β”‚Β Β  └── seq_lengths_xlog_hist.png

β”‚Β Β  β”‚Β Β      β”œβ”€β”€ hg38_success_download.log

β”‚Β Β  └── data_files

β”‚Β Β      β”œβ”€β”€ processed

β”‚Β Β      β”‚Β Β  └── tfclust

β”‚Β Β      β”‚Β Β      β”œβ”€β”€ hg19

β”‚Β Β      β”‚Β Β      β”‚Β Β  β”œβ”€β”€ encRegTfbsClustered_hg19_chr1.csv

β”‚Β Β      β”‚Β Β      β”‚Β Β  └── logs

β”‚Β Β      β”‚Β Β      β”‚Β Β      β”œβ”€β”€ completed.txt

β”‚Β Β      β”‚Β Β      β”‚Β Β      β”œβ”€β”€ completed_worker_0.txt

β”‚Β Β      β”‚Β Β      β”‚Β Β      β”œβ”€β”€ worker_0.log

β”‚Β Β      β”‚Β Β      └── hg38

β”‚Β Β      β”‚Β Β          β”œβ”€β”€ encRegTfbsClustered_hg38_chr1.csv

β”‚Β Β      β”‚Β Β          └── logs

β”‚Β Β      β”‚Β Β              β”œβ”€β”€ completed.txt

β”‚Β Β      β”‚Β Β              β”œβ”€β”€ completed_worker_0.txt

β”‚Β Β      β”‚Β Β              β”œβ”€β”€ worker_0.log

β”‚Β Β      └── raw

β”‚Β Β          β”œβ”€β”€ chip_atlas

β”‚Β Β          β”‚Β Β  └── experimentList.tab

β”‚Β Β          β”œβ”€β”€ genomes

β”‚Β Β          β”‚Β Β  β”œβ”€β”€ hg19

β”‚Β Β          β”‚Β Β  β”‚Β Β  β”œβ”€β”€ hg19_chr1.json

β”‚Β Β          β”‚Β Β  └── hg38

β”‚Β Β          β”‚Β Β      β”œβ”€β”€ hg38_chr1.json

β”‚Β Β          β”œβ”€β”€ remap

β”‚Β Β          β”‚Β Β  β”œβ”€β”€ reMap2022.bb

β”‚Β Β          β”‚Β Β  β”œβ”€β”€ reMap2022.bed

β”‚Β Β          β”‚Β Β  β”œβ”€β”€ remap2022_all_macs2_hg38_v1_0.bed.gz

β”‚Β Β          β”‚Β Β  └── remap2022_crm_macs2_hg38_v1_0.bed

β”‚Β Β          └── tfclust

β”‚Β Β              β”œβ”€β”€ encRegTfbsClusteredWithCells.hg19.bed

β”‚Β Β              β”œβ”€β”€ encRegTfbsClusteredWithCells.hg38.bed

β”‚Β Β              └── encRegTfbsClustered_data

β”‚Β Β                  β”œβ”€β”€ hg19

β”‚Β Β                  β”‚Β Β  β”œβ”€β”€ hg19_encRegTfbsClustered_chr1.json

β”‚Β Β                  └── hg38

β”‚Β Β                      β”œβ”€β”€ hg38_encRegTfbsClustered_chr1.json

β”œβ”€β”€ environment.yaml

β”œβ”€β”€ setup.py

└── tree_output.txt

```
20 directories, 3089 files

In `data_files` subfolders, only representative files for certain chromosomes are shown. In reality, any file that contains the substring "_chr" exists for every chromosome in that genome. Genome hg38 has 711 chromosomes. Genome hg19 has 298 chromosomes. To reconstruct a full directory structure, run the following from `DPACMAN`



```

tree -I '__pycache__|*.egg-info|*.git' > tree.txt

```