How to write a PhD Thesis in Computer Science ©  Fabian M. Suchanek 68
Overview 2 •   Doing a PhD •   Making a publication •   Finding a venue •   Writing a paper •   Writing a review •   Coping with the PhD •   Wrapping up
These are my personal views and recommendations. Your requirements may differ • by university • by country • by advisor • by your own preferences Following these recommendations does not guarentee success with your thesis. Not following these recommendations may still yield an excellent thesis. I cannot take responsibility for the correctness or completeness of these slides. Disclaimer 3
doctorate, PhD, Dr., Doctor of Philosophy Master / Diploma What does that mean, PhD thesis? 3-5 years of research work at university (= “writing a thesis”) 4
•  doing research is fun •  you get the opportunity to work on what you want •  a thesis can open up job opportunities      •  in countries where the PhD is an important qualification      •  in academia (see  bonus slide ) •  you help to advance science Why would you want to do that? Science is mankind’s way of approaching truth. Scientific theories are unbiased descriptions of reality, which are useful for industry and society. With a PhD thesis, you contribute your bit to this grand endeavor. 5
The start of a PhD thesis depends on the fortunate encounter of •  a student who wants to do a PhD thesis (= you?) •  an advisor (professor) who wants to advise the student •  a grant that pays the student’s salary •  a topic that is of interest to all three of them How do I start a PhD thesis? Good ways to induce such an encounter are: •  participating in courses that you like •  making contact with a professor you like •  doing an internship with that professor •  following PhD thesis offers (e.g., on forums or mailing lists) 6
What is a PhD thesis? thesis =  A thesis is a set of publications. The publications can be to some degree independent. 7
A publication is a written article (usually around 10 pages) that treats one particular scientific problem and that has been published at a scientific venue. What is a publication? Synonyms: paper, article A paper can treat •  a theoretical problem (Which subset of First Order Logic is decidable?) •  a practical problem (How can databases be merged?) •  in the best case: both 8
Overview 9 •   Doing a PhD •   Making a publication •   Finding a venue •   Writing a paper •   Writing a review •   Coping with the PhD •   Wrapping up
1. Find a problem 2. Survey related work 3. Find a solution 4. Run experiments 5. Make it a paper Making a Publication This order •  avoids re‐inventing the wheel •  builds on what is already there 10
1. Find a problem 2. Survey related work 3. Find a solution 4. Run experiments 5. Make it a paper Making a Publication 1. Find a problem 2. Find a solution 3. Survey related work 4. Run experiments 5. Make it a paper This order helps you to •  not be biased by what you read •  find intuitive easy solutions “Spend more time thinking and imagining than reading and learning.” Hatem Abdelghani's blog 11
1. Find a problem 2. Survey related work 3. Find a solution 4. Run experiments 5. Make it a paper Making a Publication 1. Find a problem 2. Find a solution 3. Survey related work 4. Run experiments 5. Make it a paper This order •  fosters inspiration •  builds on an idea 1. Find a solution 2. Find a problem 3. Survey related work 4. Run experiments 5. Make it a paper 12
Find a problem •  that interests you (and your advisor and grant giver) •  where you have knowledge (possibly even an idea) •  that is of broad relevance to science •  that is likely to stay relevant •  that does not have an obvious or known good solution Your advisor will help you find a good problem. How to search in log(n) time How to connect two computers under Windows Vista How to find a suitable problem Bad problems for a publication: P=NP? How can my dataset be cleaned? 13
In the best case, the problem appears naturally in your area of interest. It can also come from reading other publications. Two types of problems are good for solving: 1) Problems that have a solution, but that you can solve better      (faster, more automatically, more easily) 2) Problems that do not have a solution It’s easier to do something new than to improve on existing work. How to find a suitable problem >RelWork 14
We are not interested in solving problems that have already been solved. Your approach has to show •  that it solves a problem for which there was no solution •  or that it solves a problem better than what is already there Surveying Related Work >RelWork 15
How to find the papers •  ask your advisor •  search on Google scholar •  read the related work of the papers you found •  iterate How to get the papers •  find the PDF online •  often, your university has an agreement to make papers accessible •  otherwise, write an email to the authors How to deal with a paper •  read it •  write a short summary (even if the paper turns out to be irrelevant) •  store the summary for use in related work Surveying Related Work If you thought the paper was relevant, a reviewer may think the same! >RelWork 16
•  What problems are hot right now? •  What solutions do people propose? •  Which related work do people cite?     (this gives us further material to read) •  Which conferences do people cite? •  Who are the main players in the field? •  Which problems are still open? •  How do people sell their stuff? “The key idea to overcome this dilemma,  pursued in this paper, is to leverage the existing  ontology for its own growth.” What to learn from papers 17
In the ideal case, the solution should be •  general (applicable to many problem instances) •  elegant (a smart idea, well exploited) •  theoretically well founded (not ad hoc) •  implemented (i.e. proven to work) Find a solution A solution should not be more complicated than necessary 18
Practical work requires experiments. Experiments should show •  that the solution works •  that the solution works better/faster than known solutions Saying that your solution is more sophisticated and hence better is NOT a valid argument! Make Experiments >Exp 19
In the experiments •  use standard benchmark datasets wherever possible (see related work) •  compare against the best solutions that exist (“state of the art”) An irreproachable experiment is when you use exactly the same dataset and the same metric as your competitor, and you produce better numbers. Make Experiments 20
Nobody will verify whether you report the numbers that you really obtained in the experiments. It is out of question to manipulate the results. It can be very useful to run the experiments even just for your own system, during implementation. Make periodically sure that every “improvement”  to the algorithm really improves the results. Sideremarks on Experiments It is OK if your solution delivers better results only in some cases — as long as you can determine upfront what these cases are. Experiments are often the bottleneck of producing a paper. Do them early on. 21
If you cannot find a solution, or if you are not happy with the problem, consider giving up on it! Try something else! “Better an end with horror than horror without end.” Do not insist on the solution you found. Even if you (or your advisor) thinks it is good, it can be not the right thing to do. Try alternatives. Try even changing the problem. Backtrack (Sophie Scholl) 22
Overview 23 •   Doing a PhD •   Making a publication •   Finding a venue •   Writing a paper •   Writing a review •   Coping with the PhD •   Wrapping up
In computer science, typical venues are •   conferences  (main publishing avenue) •   demos  (system demonstrations) •   poster papers  (“smaller” papers) •   workshops  (like smaller conferences) •   journals  (usually detailed versions    of published conference papers) All of these (except journals) are physical meetings of scientists. Finding a venue A paper goes to a “venue”, i.e., an institution that •  checks the paper for quality •  publishes the paper >Quality 24
A good venue has papers that •  are well written •  are up to date with respect to related work •  treat a problem in depth •  provide a well-founded solution Good venues are international, i.e., they are in English. This means: •  more people can contribute the papers •  more people can verify and check the papers •  more people can use the papers What is a good venue? All venues (conferences, workshops, journals, etc.) exist in different “qualities”. >Quality 25
Quality of venue It is easier to have a paper at a bad venue. Yet, one can be a lot less proud of it. It is very hard to get a paper into a good venue. In return, if someone gets a paper in a good venue, it means (or is perceived as if) the paper is great. Rather than publishing at a bad conference, consider publishing a demo or workshop paper at a good conference. >Quality 26
•  your advisor will know •  search for “conference ranking” in your area on the Web Typical rankings are •  “Rank 1”, “Rank 2”, etc. •  A*, A, B, C ... but rankings are subjective (and a self-fulfilling prophecy) How to find good venues See, e.g., the CORE ranking 27
Overview 28 •   Doing a PhD •   Making a publication •   Finding a venue •   Writing a paper •   Writing a review •   Coping with the PhD •   Wrapping up
Writing a paper It is common practice to use Latex for papers (and you will spend the same time taming LaTex as you will spend writing the actual text). All scientific papers follow the same structure: •  title •  abstract •  introduction •  related work •  preliminaries •  approach (solution) •  experiments •  conclusion >Writing 29
The title of your paper should say what the paper is about. •  Try using all important keywords •  If you wish, invent an acronym for your approach     (it helps people remember your solution) “PARIS: Probabilistic Alignment of Relations, Instances, and Schema” The abstract should describe in 10 lines •  what exactly is the problem (input / output) •  how it is solved •  that your approach is better than the others Title and Abstract >Writing 30
The introduction should contain Jennifer Widom’s “Stanford 5”: •  what is the problem? •  why this problem is important? •  why is it hard? •  why hasn’t it been solved already? •  what is our solution? Introduction After having read the introduction, the reader should know what EXACTLY is the problem: •  what is the input (= what is given) •  what is the desired output “If the reviewer gets beyond the first page without getting convinced, then he will never get convinced.” Hatem Abdelghani's blog >Writing 31
For every (vaguely) related approach, the paper should say •  what the approach does •  why it does not solve the problem   •  either because the approach solves a different problem   •  or because the solution is imperfect “The XYZ system [42] also addresses the problem of database merging. Their approach [blah blah]. Yet, the approach has a crucial drawback: It relies on manual work by underpaid PhD students.” You cannot be too generous in your coverage of related work. Cover a paper not only if it is relevant, but also if a reviewer could think it is relevant (Web search). Related Work >Writing 32
The main part of the paper should explain your solution. •  be very explicit and clear •  explain every design choice you made "We will now explain our approach. As input, we require [...]. Our goal is to [...]. Our approach proceeds in 3 stages: ...” Show that you found a certain path, and that this path is the best one to go. Your Solution >Writing 33
Experiments should show that your method works best. •  run on different data sets (at least 3) •  run with different competitors (at least 1, better 3) •  run your system with different parameter settings •  explain all datasets, metrics, and settings explicitly •  discuss reasons for good and bad performance Be fair with your competitors! That will convince people. Experiments time size of dataset Our system Their system >Writing 34
Write a conclusion  (roughly the same thing as the abstract, in past tense). Include discussion and future work. “In this paper, we have addressed the problem of blah . We have shown that blub. ... Our approach still leaves a number of challenges to be solved: ...” Conclusion Be frank about limitations of your approach (but make clear that these are for future work). >Writing 35
The paper has to be well written •  faultless English (use a spell checker) •  short and concise sentences “In this paper, what we want to do is after the Web, which has grown so large in recent times has become even larger is dealing with the problem that has been bothering many people (not just researchers), namely that Web search often does not deliver the results.” “In this paper, we are dealing with Web search. Web search is the problem of finding relevant Web  documents for a given set of keywords. ...” Polishing Faulty English is a reason for rejection! >Writing 36
Many good papers are good, because they describe a clever solution •  in depth •  in a form that is pleasant to read The solution does not have to be brilliant, if it is thought through and well presented. Polishing 37
Decide who should be an author •  only people who contributed to the work should be authors •  all people who contributed to the work should be authors Do not take someone as co‐author just because he offers help (everybody can offer help). Take someone as co-author if he is indispensable. Authors In some communities, the order of authors is the order of importance •  who had the main idea and main work goes first •  other authors come next •  the advisor usually goes last All of these are tricky issues, discuss them with your advisor. 38
A paper is submitted online to the venue (= uploaded to the conference Web page). Venues usually have a deadline •  the deadline is precise to the minute •  it is usually in Hawaiian time zone    (around 5am-11am European time) •  you can submit your paper several times, the last version counts Writing a paper ALWAYS takes until the last second. Be prepared to work 10h a day in the week before the deadline (including weekends), and the entire night before the deadline. Submitting 39
The reviewers will decide whether to accept  or reject your paper. You have to accept their decision. They usually provide reasons and suggestions. Reviews >Reject Don’t waste the time waiting for their decision! Use it to improve all the weaknesses of your paper that you discovered while writing it — either for this venue or for the next! The paper is then reviewed by 3 anonymous experts. This usually takes around 6 weeks. You may not submit the paper somewhere else during this time. 40
Overview 41 •   Doing a PhD •   Making a publication •   Finding a venue •   Writing a paper •   Writing a review •   Coping with the PhD •   Wrapping up
Science is humanity’s way of approaching truth. (see  Wikipedia/Science ) The scientific state of the art is the corpus of all theories that are known to make correct predictions, plus their predictions. The purpose of the reviewing process is two‐fold: 1) determine whether your contribution should be part of science 2) help you improve your contribution The Purpose of Reviews >Reject This is how science advances: Every idea is checked as objectively as possible by experts. Only if the idea is convincing, it becomes part of science. This model is, at the same time, also one of the problems of academia, see Antoine Amarilli’s  summary . 42
Ethical Expectations >Reject Reviewers are bound by ethical expectations: •  They have to keep the paper confidential. •  They are not allowed to use the contributions for their own research •  They are requested to be polite, even if they are anonymous •  most importantly: they have to work with utmost rigor,    because their decision impacts a person and their career. 43
Blindness standard provably improves reviewer neutrality There are different ways of reviewing: •  non-blind submission:   - the authors know who the reviewers are   - the reviewers know who the authors are •  (single‐)blind submission:   - the authors do not know the reviewers   - the reviewers know the authors •  double‐blind submission:   - the authors do not know the reviewers   - the reviewers do not know the authors     => all references to the authors have to be removed from the paper 44
•  Brief summary of the paper to show that the reviewer understood